6.7 tf-idf 或 PPMI 向量模型的应用

总之，到目前为止我们所描述的向量语义模型将目标词表示为一个向量，其维度对应于一个大型文集中的文档（词-文档矩阵）或某个邻近窗口中词语的计数（词-词矩阵）。每个维度的值是经过加权的计数，词-文档矩阵使用 tf-idf 加权，词-词矩阵使用 PPMI 加权，且这些向量是稀疏的（因为大多数值为零）。

该模型通过计算两个词 $x$ 和 $y$ 的 tf-idf 或 PPMI 向量的余弦值来衡量它们之间的相似性；余弦值越高，相似度越高。整个模型有时根据其加权函数被称为 tf-idf 模型或 PPMI 模型。

基于 tf-idf 的意义模型常用于文档相关任务，例如判断两篇文档是否相似。取文档中所有词的向量，并计算这些向量的质心（centroid）来表示一篇文档。质心是均值在多维空间中的推广；一组向量的质心是一个单一向量，它到该组中每个向量的平方距离之和最小。给定 $k$ 个词向量 $w_1, w_2, ..., w_k$，其质心文档向量 $d$ 定义为：

$$ d = \frac{w_1 + w_2 + ... + w_k}{k} \tag{6.23} $$

给定两篇文档后，我们可以计算它们的文档向量 $d_1$ 和 $d_2$，并通过 $cos(d_1, d_2)$ 来估计两篇文档的相似度。文档相似度在各种应用中都非常有用，例如信息检索、抄袭检测、新闻推荐系统，甚至可用于数字人文领域的任务，如比较文本的不同版本以判断哪些版本彼此相似。

PPMI 模型和 tf-idf 模型都可用于计算词语相似度，适用于诸如寻找词语同义词、追踪词语意义变化，或自动发现不同语料库中词语含义等任务。例如，可以通过计算目标词 $w$ 与其余 $V-1$ 个词之间的余弦相似度，对结果进行排序，然后查看前 10 个结果，从而找到与 $w$ 最相似的 10 个词。