1.2 词表示与语言模型

用户5190

用户3695

用户9737

2024年6月8日修改

在上一节的末尾，我们提到了人工智能的核心概念——知识表示的问题。在NLP领域，这一问题同样关键：机器无法理解文字，却能进行复杂的数学运算——神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。如果我们把文字嵌入（embed）到一个向量空间中去，机器是不是就更可能理解人类的语言了呢？这就是词表示（Word Representation，有的地方翻译为“词表征”），也即词嵌入（Word Embedding）的思想。​

词表示的历史大概可以分为4代：

独热（One hot）编码

假设中文字典有n个词元（token，不同的分词器tokenizer有不同的算法，简单起见，大家目前可以把一个词元理解为一个汉字），那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入，但是具有下列两个问题：第一，向量的维度太长了，文本的表示过于稀疏；第二，词向量与词向量之间完全正交，不具有相关性，这显然是不合理的。我们需要考虑词在语境（context）中的含义。​

词频-逆文档词频（Term Frequency-Inverse Term Frequency, TF-IDF）

我们不妨用同一个词在不同文档中的“重要性”和它在全文中的“特殊性”合起来来构建词向量。TF-IDF正是基于下面的思想：根据Zipf's Law，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。与独热编码相比，TF-IDF词向量的维度明显降低了，并且能够衡量词的差异性。然而NLP研究者们并不止步于此。​

前面两种词表示方法是前深度学习时代的，即使TF-IDF用到了一定统计学，但它们还不够精确。分布语义学（Distributed Semantics）则通过无监督的方法，训练神经网络来实现词的向量化表示。​

语境无关（Context-free/Non-contextual）的词表示：Word2vec

Word2vec被称作语境无关的，因为它对每一个词生成一个相同的词表示，不考虑同一个词在不同语境下含义的差别。我们用一个浅层神经网络，依次遮住句子中的每一个词，然后用它的上下文来预测它，这被称作连续词袋法（continuous bag of words, CBOW）；另一种方法则是与之对偶的，我们用一个k元词组来预测它的上下文，这被称作跳元法（skip-gram）。我们容易看到，这就是为什么说分布语义学使用无监督或者自监督预训练（self-supervised pretraining, SSP）的方法：通过“破坏”句子的一部分，让模型预测它，从而实现对词的更精确的表示。深度学习时代NLP的革命性时刻——BERT的诞生，也是利用了这样的思想。​

语境相关（Context-dependent/Contextual）的词表示：BERT

语言的多义性是人类自然语言的重要特点。在Word2vec的基础上更进一步，BERT考虑了三层嵌入：词嵌入、位置嵌入（词在句子中的位置）和句子嵌入，并把它们加起来作为最后的嵌入表示。（容易证明，把三种嵌入加起来，和把三种嵌入首尾拼接，再经过一个全连接层进行训练的效果相同。）BERT使用WordPiece分词器（tokenizer），借鉴了自监督训练的思想，在两个任务上进行预训练：下句预测（Next Sentence Prediction）和掩码语言建模（Masked Language Modeling）。下句预测是一个二分类任务：给定一个句子，判定另一个句子是否是它的下一句；掩码语言建模任务随机掩盖其中15%的单词，并训练模型来预测被掩盖的单词，为了预测被掩盖的单词，模型从两个方向阅读该句并进行预测（这也是为什么BERT叫做双向的Bidirectional）。BERT还有多种变体：Albert， RoBERTa，Electra和SpanBERT等，感兴趣的朋友可以自行了解。​

1.2 词表示与语言模型​

1.2 词表示与语言模型