总之,到目前为止我们所描述的向量语义模型将目标词表示为一个向量,其维度对应于一个大型文集中的文档(词-文档矩阵)或某个邻近窗口中词语的计数(词-词矩阵)。每个维度的值是经过加权的计数,词-文档矩阵使用 tf-idf 加权,词-词矩阵使用 PPMI 加权,且这些向量是稀疏的(因为大多数值为零)。
该模型通过计算两个词 $x$ 和 $y$ 的 tf-idf 或 PPMI 向量的余弦值来衡量它们之间的相似性;余弦值越高,相似度越高。整个模型有时根据其加权函数被称为 tf-idf 模型或 PPMI 模型。
基于 tf-idf 的意义模型常用于文档相关任务,例如判断两篇文档是否相似。取文档中所有词的向量,并计算这些向量的质心(centroid)来表示一篇文档。质心是均值在多维空间中的推广;一组向量的质心是一个单一向量,它到该组中每个向量的平方距离之和最小。给定 $k$ 个词向量 $w_1, w_2, ..., w_k$,其质心文档向量 $d$ 定义为:
$$ d = \frac{w_1 + w_2 + ... + w_k}{k} \tag{6.23} $$给定两篇文档后,我们可以计算它们的文档向量 $d_1$ 和 $d_2$,并通过 $cos(d_1, d_2)$ 来估计两篇文档的相似度。文档相似度在各种应用中都非常有用,例如信息检索、抄袭检测、新闻推荐系统,甚至可用于数字人文领域的任务,如比较文本的不同版本以判断哪些版本彼此相似。
PPMI 模型和 tf-idf 模型都可用于计算词语相似度,适用于诸如寻找词语同义词、追踪词语意义变化,或自动发现不同语料库中词语含义等任务。例如,可以通过计算目标词 $w$ 与其余 $V-1$ 个词之间的余弦相似度,对结果进行排序,然后查看前 10 个结果,从而找到与 $w$ 最相似的 10 个词。