自然语言处理导论(第3版)

原文：Speech and Language Processing (3rd ed. draft)

当前译文基于 Draft of August 24, 2025。

译文仅供学习参考，请勿转载或用于商业用途。

原书作者：

Daniel Jurafsky，哈佛大学
James H. Martin，科罗拉多大学博尔德分校

8.5 语言建模头部

我们必须介绍的 Transformer 最后一个组件是语言建模头部（language modeling head）。这里所说的“头部”（head），是指在将预训练的 Transformer 模型应用于各种任务时，附加在基础 Transformer 架构顶部的额外神经网络结构。而语言建模头部，正是我们进行语言建模任务所需的特定结构。回顾一下：从第 3 章的简单 n-gram 模型，到第 6 章和第 13 章的前馈神经网络与循环神经网络（RNN）语言模型，语言模型本质上都是词元预测器。给定一段上下文词序列，它们会为每一个可能的下一个词分配一个概率。例如，如果前面的上下文是 Thanks for all the，我们想知道下一个词是 fish 的可能性有多大，就会计算： P(fish | Thanks for all the) 语言模型能够为词汇表中每一个可能的下一个词都给出这样一个条件概率，从而形成一个完整的概率分布。第 3 章中的 n-gram 语言模型通过统计目标词与其前 $n-1$ 个词共同出现的频次来计算概率。因此其上下文长度固定为 $n-1$。而 Transformer 语言模型的上下文长度则等于其上下文窗口大小，可以非常大，例如大型模型通常支持 32K 个词元的上下文。借助特殊的长上下文架构（如稀疏注意力、记忆机制等），甚至可扩展至数百万词元。语言建模头部的任务是：取最后一层 Transformer 对最后一个输入词元（位置 $N$）的输出，并用它来预测位置 $N+1$ 处的下一个词元。图 8.14 展示了如何完成这一任务：输入是最后一层中最后一个词元的输出嵌入（一个形状为 $[1 \times d]$ 的 $d$ 维向量），输出是一个覆盖整个词汇表的概率分布（从中我们可以选择一个词元用于生成）。图 8.14 语言建模头部：位于 Transformer 顶部的结构，将最后一层对词元 $N$ 的输出嵌入 $h^L_N$ 映射为词汇表 $V$ 上的概率分布。 ...

6.10 嵌入向量的语义特性

本节简要总结一些已被研究过的嵌入向量的语义特性。不同类型的相似性或关联性：对于稀疏的 tf-idf 向量和稠密的 word2vec 向量而言，矢量语义模型中一个共同相关的参数是用于统计共现次数的上下文窗口大小。通常，该窗口在目标词左右各取 1 到 10 个词（总上下文长度为 2–20 个词）。具体选择取决于表示的目标。较短的上下文窗口倾向于产生更具句法性质的表示，因为信息来自紧邻的词语。当使用短上下文窗口计算向量时，与目标词 w 最相似的词通常是具有相同词性、语义相近的词；而当使用长上下文窗口计算向量时，与目标词 w 余弦相似度最高的词往往是主题相关但并不语义相似的词。例如，Levy 和 Goldberg (2014a) 指出，在使用 ±2 窗口的跳字模型中，与 Hogwarts（《哈利·波特》中的霍格沃茨魔法学校）最相似的词是其他虚构学校的名称，如 Sunnydale（出自《吸血鬼猎人巴菲》）或 Evernight（出自某吸血鬼系列）。而当窗口扩大到 ±5 时，与 Hogwarts 最相似的词则变为《哈利·波特》系列中的主题相关词，如 Dumbledore（邓布利多）、Malfoy（马尔福）和 half-blood（混血）。此外，通常还需区分两种词间相似性或关联性（Schütze 和 Pedersen, 1993）。如果两个词经常彼此相邻出现，则它们具有一阶共现关系（有时称为组合型关联，syntagmatic association）。例如，wrote（写）是一阶关联词，常出现在 book（书）或 poem（诗）附近。如果两个词拥有相似的上下文邻居，则它们具有二阶共现关系（有时称为聚合型关联，paradigmatic association）。例如，wrote 与 said（说）或 remarked（评论）属于二阶关联词，因为它们在语言中扮演相似的角色。类比/关系相似性：嵌入向量的另一重要语义特性是其捕捉关系意义的能力。在早期关于认知的向量空间模型中，Rumelhart 和 Abrahamson (1973) 提出了平行四边形模型（parallelogram model），用于解决形式为“a 对 b 如同 a* 对什么？”的简单类比问题。例如，给定问题 apple:tree::grape:?（即“苹果之于树，如同葡萄之于__”），系统需填入 vine（藤蔓）。如图 6.15 所示，在平行四边形模型中，从 apple 到 tree 的向量（即 $\overrightarrow{tree} - \overrightarrow{apple}$）被加到 grape 的向量（$\overrightarrow{grape}$）上，然后找出离该点最近的词作为答案。 ...

6.11 嵌入中的偏见

除了能够从文本中学习词义之外，令人遗憾的是，嵌入还会再现文本中隐含的偏见和刻板印象。正如前一节所示，嵌入大致可以建模关系相似性：例如，“queen”（女王）是“king”（国王）− “man”（男人）+ “woman”（女人）最接近的词，这暗示了类比关系 man:woman::king:queen（男人对女人如同国王对女王）。然而，这些相同的嵌入类比也暴露了性别刻板印象。例如，Bolukbasi 等人（2016）发现，在基于新闻文本训练的 word2vec 嵌入中，“computer programmer” − “man” + “woman” 最接近的职业是 “homemaker”（家庭主妇）；嵌入还暗示了这样的类比：“father”（父亲）之于“doctor”（医生），如同“mother”（母亲）之于“nurse”（护士）。这可能导致 Crawford（2017）和 Blodgett 等人（2020）所称的分配性伤害（allocational harm）—— 即系统在资源（如工作机会或信贷）分配上对不同群体不公平。例如，若招聘算法使用嵌入来筛选潜在程序员或医生候选人，就可能错误地降低包含女性姓名文档的权重。事实证明，嵌入不仅反映输入文本的统计特性，还会放大偏见：性别化术语在嵌入空间中变得比原始文本统计中更加性别化（Zhao 等, 2017；Ethayarajh 等, 2019b；Jia 等, 2020），且这种偏见甚至比现实劳动力就业统计数据中的偏见更为夸张（Garg 等, 2018）。嵌入还编码了人类推理中固有的内隐联想。内隐联想测验（Implicit Association Test, IAT；Greenwald 等, 1998）通过测量人们对不同类别词汇进行分类时的反应延迟差异，来评估其对概念（如“花朵”或“昆虫”）与属性（如“愉快”与“不愉快”）之间的联想强度。[^7] 利用此类方法，研究发现美国民众倾向于将非裔美国人姓名与负面词汇关联（相比欧裔美国人姓名更甚），男性姓名更多与数学关联、女性姓名更多与艺术关联，老年人姓名则与负面词汇关联（Greenwald 等, 1998；Nosek 等, 2002a, 2002b）。 Caliskan 等人（2017）使用 GloVe 向量和余弦相似度（而非人类反应时间）成功复现了所有这些内隐联想结果。例如，像 “Leroy” 和 “Shaniqua” 这样的非裔美国人姓名与负面词汇的 GloVe 余弦相似度更高，而像 “Brad”、“Greg”、“Courtney” 这样的欧裔美国人姓名则与正面词汇的余弦相似度更高。这类嵌入问题属于 Crawford（2017）和 Blodgett 等人（2020）所说的表征性伤害（representational harm）——即系统贬低甚至忽视某些社会群体所造成的伤害。因此，任何利用词情感信息的嵌入感知算法都可能加剧对非裔美国人的偏见。 [^7] 简言之，如果人们将“花朵”与“愉快”、“昆虫”与“不愉快”相关联，那么当实验要求他们对“花朵”（雏菊、鸢尾、丁香）和“愉快词”（爱、欢笑、愉悦）按绿色按钮，对“昆虫”（跳蚤、蜘蛛、蚊子）和“不愉快词”（虐待、仇恨、丑陋）按红色按钮时，他们的反应速度会快于不一致条件（例如对“花朵”和“不愉快词”按红键，对“昆虫”和“愉快词”按绿键）。近期研究聚焦于尝试消除此类偏见的方法，例如开发一种嵌入空间变换，在去除性别刻板印象的同时保留定义性的性别差异（Bolukbasi 等, 2016；Zhao 等, 2017），或修改训练过程本身（Zhao 等, 2018b）。然而，尽管这类去偏（debiasing）方法可能减轻嵌入中的偏见，却无法彻底消除（Gonen 和 Goldberg, 2019），这仍然是一个开放性问题。 ...

6.12 向量模型的评估

向量模型最重要的评估指标是外部评估（extrinsic evaluation），即在实际自然语言处理任务中使用这些向量，并检验其性能是否优于其他模型。尽管如此，内部评估（intrinsic evaluation）仍然具有参考价值。最常见的内部评估方法是测试模型在词相似性任务上的表现：计算算法给出的词相似度得分与人类标注的词相似度评分之间的相关性。 WordSim-353（Finkelstein 等, 2002）是一个常用的数据集，包含 353 对名词，每对由人类评分为 0 到 10 分；例如，(plane, car) 的平均得分为 5.77。 SimLex-999（Hill 等, 2015）是一个更复杂的数据集，它衡量的是语义相似性（如 cup 和 mug）而非仅仅是语义关联性（如 cup 和 coffee），并涵盖了具体与抽象的形容词、名词和动词对。 TOEFL 数据集包含 80 道题目，每道题给出一个目标词和四个备选项，任务是从中选出正确的同义词，例如： Levied is closest in meaning to: imposed, believed, requested, correlated （Landauer 和 Dumais, 1997）。所有这些数据集中的词均不带上下文。稍显更贴近现实的是包含上下文的内部相似性任务。斯坦福上下文词相似度（Stanford Contextual Word Similarity, SCWS）数据集（Huang 等, 2012）和 WiC（Word-in-Context）数据集（Pilehvar 和 Camacho-Collados, 2019）提供了更丰富的评估场景。 SCWS 提供了 2,003 对词语在句子上下文中的相似度人工评分；而 WiC 则给出同一个目标词在两个不同句子中的用法，要求判断这两个用法是否属于同一词义（详见附录 G）。此外，语义文本相似度（Semantic Textual Similarity, STS）任务（Agirre 等, 2012, 2015）用于评估句子级相似度算法的性能，包含多对句子，每对都配有由人类标注的相似度分数。 ...

6.13 小结

在向量语义学中，一个词被建模为一个向量——即高维空间中的一个点，也称为嵌入（embedding）。本章聚焦于静态嵌入（static embeddings），其中每个词被映射到一个固定的嵌入表示。向量语义模型可分为两类：稀疏（sparse）和稠密（dense）。在稀疏模型中，每一维对应词汇表 V 中的一个词，单元格的值是共现频次的某种函数。词–文档矩阵（term-document matrix）为词汇表中的每个词（术语）设一行，为每个文档设一列。词–上下文矩阵（word-context 或 term-term matrix）为词汇表中的每个（目标）词设一行，为每个上下文词设一列。两种常用的稀疏加权方法是：tf-idf 加权，其单元格值由词频（term frequency）和逆文档频率（inverse document frequency）共同决定；PPMI（点互信息的正值部分，positive pointwise mutual information），常用于词–上下文矩阵。稠密向量模型的维度通常为 50–1000。Word2vec 算法（如 skip-gram）是计算稠密嵌入的流行方法。Skip-gram 训练一个逻辑回归分类器，用于估计两个词“在文本中彼此邻近出现”的概率，该概率通过两个词嵌入向量的点积（dot product）计算得出。 Skip-gram 使用随机梯度下降训练该分类器：学习得到的嵌入应与邻近词的嵌入具有高点积，而与噪声词（负样本）的嵌入具有低点积。其他重要的嵌入算法包括 GloVe，它基于词共现概率的比值构建嵌入。无论是使用稀疏还是稠密向量，词与文档之间的相似度都通过向量点积的某种函数来计算。其中最常用的度量是两个向量的余弦相似度（cosine similarity）——即归一化后的点积。参考文献与历史注记向量语义的思想起源于 20 世纪 50 年代三个不同领域的研究：语言学、心理学和计算机科学，每个领域都为该模型贡献了关键思想。 20 世纪 50 年代的语言学理论中，分布主义思想广为流传。以 Zellig Harris、Martin Joos 和 J. R. Firth 为代表的分布主义者，以及 Thomas Sebeok 等符号学家，都认为词义与其在上下文中的分布密切相关。正如 Joos（1950）所言：语言学家对一个语素的“意义”……按定义就是它与所有其他语素在上下文中共同出现的条件概率集合。将词义建模为多维语义空间中一个点的想法，则来自心理学家 Charles E. Osgood 等人的研究。他们通过让人们在诸如 happy/sad（快乐/悲伤）或 hard/soft（坚硬/柔软）等量表上对词义打分，来研究人们对词义的感知。Osgood 等人（1957）提出，一个词的意义总体上可被建模为欧几里得多维空间中的一个点，而两个词在意义上的相似性则可用它们在该空间中的距离来刻画。第三个思想来源是 20 世纪 50 年代末至 60 年代初被称为机械索引（mechanical indexing）的领域，即如今的信息检索（information retrieval）。在后来被称为向量空间模型（vector space model）的信息检索框架中（Salton, 1971；Sparck Jones, 1986），研究者提出了用向量定义词义的新方法（Switzer, 1965），并改进了基于统计关联度量（如互信息（Giuliano, 1965）和 IDF（Sparck Jones, 1972））的词相似度计算方法，同时证明文档的意义也可以用与词相同的向量空间来表示。几乎同时，Cordier（1965）展示了如何通过对词语联想概率进行因子分析，生成词的稠密向量表示。 ...

目录#

目录