向量模型最重要的评估指标是外部评估(extrinsic evaluation),即在实际自然语言处理任务中使用这些向量,并检验其性能是否优于其他模型。

尽管如此,内部评估(intrinsic evaluation)仍然具有参考价值。 最常见的内部评估方法是测试模型在相似性任务上的表现:计算算法给出的词相似度得分与人类标注的词相似度评分之间的相关性。 WordSim-353(Finkelstein 等, 2002)是一个常用的数据集,包含 353 对名词,每对由人类评分为 0 到 10 分;例如,(plane, car) 的平均得分为 5.77。 SimLex-999(Hill 等, 2015)是一个更复杂的数据集,它衡量的是语义相似性(如 cupmug)而非仅仅是语义关联性(如 cupcoffee),并涵盖了具体与抽象的形容词、名词和动词对。 TOEFL 数据集 包含 80 道题目,每道题给出一个目标词和四个备选项,任务是从中选出正确的同义词,例如:Levied is closest in meaning to: imposed, believed, requested, correlated (Landauer 和 Dumais, 1997)。 所有这些数据集中的词均不带上下文。

更现实的是包含上下文的内部相似性任务。 斯坦福上下文词相似度(Stanford Contextual Word Similarity, SCWS)数据集(Huang 等, 2012)和 WiC(Word-in-Context)数据集(Pilehvar 和 Camacho-Collados, 2019)提供了更丰富的评估场景。 SCWS 提供了 2,003 对词语在句子上下文中的相似度人工评分;而 WiC 则给出同一个目标词在两个不同句子中的用法,要求判断这两个用法是否属于同一词义(详见附录 G)。 此外,语义文本相似度(Semantic Textual Similarity, STS)任务(Agirre 等, 2012, 2015)用于评估句子级相似度算法的性能,包含多对句子,每对都配有由人类标注的相似度分数。

另一种常用的评估任务是类比任务(参见第 111 页),系统需解决形如“a 对 b 如同 a* 对 b*”的问题——给定 ab 和 $a^*$,找出 $b^*$(Turney 和 Littman, 2005)。 为此已构建了多个元组数据集(Mikolov 等, 2013a, 2013c;Gladkova 等, 2016),涵盖形态变化(如 city:cities::child:children)、词典关系(如 leg:table::spout:teapot)、百科知识关系(如 Beijing:China::Dublin:Ireland)。 其中部分数据源自 SemEval-2012 Task 2 的 79 种不同关系类型数据集(Jurgens 等, 2012)。

所有嵌入算法都存在固有的变异性。 例如,由于初始化的随机性和负采样的随机性,像 word2vec 这样的算法即使在同一数据集上运行,也可能产生不同的结果;而且语料库中的个别文档可能对最终嵌入产生显著影响(Tian 等, 2016;Hellrich 和 Hahn, 2016;Antoniak 和 Mimno, 2018)。 因此,当使用嵌入来研究特定语料库中的词关联时,最佳实践是:通过对文档进行自助抽样(bootstrap sampling)多次训练嵌入模型,并对结果取平均(Antoniak 和 Mimno, 2018)。