自然语言处理导论(第3版)

原文：Speech and Language Processing (3rd ed. draft)

当前译文基于 Draft of August 24, 2025。

译文仅供学习参考，请勿转载或用于商业用途。

原书作者：

Daniel Jurafsky，哈佛大学
James H. Martin，科罗拉多大学博尔德分校

12.2 基于编码器-解码器的机器翻译

机器翻译（MT）的标准架构是编码器-解码器 Transformer，也称为序列到序列（sequence-to-sequence）模型——我们在第 13 章讨论 RNN 时将看到这一架构。我们将在第 12.3 节详细介绍如何将该架构应用于 Transformer，但首先让我们先谈谈整体任务。大多数机器翻译任务采用一个简化假设：每个句子可以独立翻译。因此，我们目前只考虑单个句子的翻译。给定一个源语言（source language）句子，MT 的任务就是生成对应的目标语言（target language）句子。例如，一个 MT 系统接收到如下英语句子： The green witch arrived 并需将其翻译为西班牙语句子： Llegó la bruja verde 机器翻译采用监督式机器学习：在训练阶段，系统会获得大量平行句对（parallel sentences）——即每个源语言句子都配有对应的目标语言译文，从中学习如何将源句映射为目标句。在实际应用中，系统通常不会直接使用完整单词（如上例所示），而是将句子切分为一系列子词词元（subword tokens）——这些 token 可以是完整单词、子词片段，甚至是单个字符。随后，系统被训练以最大化在给定源语言 token 序列 $x_1, \dots, x_n$ 的条件下，目标语言 token 序列 $y_1, \dots, y_m$ 的概率： $$ P(y_1, \dots, y_m \mid x_1, \dots, x_n) \tag{12.7} $$编码器-解码器架构并不直接使用输入 token，而是由两个组件构成：编码器（encoder）和解码器（decoder）。编码器接收输入序列 $x = [x_1, \dots, x_n]$，并生成一个中间上下文表示 $\mathbf{h}$。在解码阶段，系统利用 $\mathbf{h}$，逐词生成输出序列 $y$： $$ \begin{align*} \mathbf{h} = \text{encoder}(x) \tag{12.8} \\ y_{t+1} = \text{decoder}(\mathbf{h}, y_1, \dots, y_t) \quad \forall t \in [1, \dots, m] \tag{12.9} \end{align*} $$在接下来的两节中，我们将依次介绍子词词元化（subword tokenization）和如何获取用于训练的平行语料库，之后再深入讲解编码器-解码器架构的具体细节。 ...

第 12 章机器翻译

“我想说你们族人的方言。如果别人听不懂你说的话，说话就没有意义。” ——佐拉·尼尔·赫斯顿，《摩西：山中之人》，1939年，第121页本章介绍机器翻译（MT），即利用计算机将一种语言自动翻译成另一种语言。当然，广义上的翻译——比如文学或诗歌的翻译——是一项困难、迷人且高度依赖人类智慧的工作。其丰富性不亚于人类创造力的任何其他领域。因此，当前形式的机器翻译主要聚焦于若干非常实际的任务。目前最常见的机器翻译用途之一是信息获取。我们可能想翻译网上的某些说明文字，比如一道喜爱菜肴的食谱，或者组装家具的步骤。我们也可能想阅读一篇外文报纸文章，或者从维基百科、政府网站等外语在线资源中获取信息。用于信息获取的机器翻译，可能是自然语言处理（NLP）技术最普遍的应用之一。仅Google Translate（如上图所示）每天就在100多种语言之间翻译数千亿个单词。因此，机器翻译的进步有助于缩小所谓的数字鸿沟：即英语和富裕国家所用语言的信息远比其他语言丰富得多。用英语进行网络搜索能获得远多于其他语言的信息；像维基百科这样的在线资源，在英语和其他高资源语言中的内容也大得多。高质量的翻译可以帮助低资源语言的使用者获取更多信息。机器翻译另一个常见用途是辅助人工译员。 MT系统通常会先生成一份初稿，再由人工译员在后期编辑（post-editing）阶段进行修改。这项任务常被称为计算机辅助翻译（CAT）。 CAT通常作为本地化（localization）的一部分使用。本地化是指将内容或产品适配到特定语言社群的过程。最近，机器翻译还被用于满足即时人际交流的需求。这包括增量翻译（incremental translation）——在句子尚未说完时就实时翻译语音，类似于同声传译的做法。还有以图像为中心的翻译应用，例如通过手机摄像头拍摄菜单或路牌，利用 OCR 识别图像中的文字，再将其输入 MT 系统进行翻译。机器翻译的标准算法是编码器-解码器（encoder-decoder）网络。我们在第7章简要提到过，编码器-解码器（或称序列到序列）模型适用于将一个输入序列映射为一个输出序列的任务，而该输出序列是整个输入序列的复杂函数。这类任务包括机器翻译和语音识别。的确，在机器翻译中，目标语言的词与源语言的词在数量和顺序上往往并不一致。请看下面这个虚构的英文句子及其日语翻译： (12.1) English: He wrote a letter to a friend Japanese: tomodachi ni tegami-o kaita friend to letter wrote 注意，两种语言中句子成分的位置差异很大。英文中动词位于句中，而日文中动词 kaita（写了）出现在句末。日语句子不需要代词 he（他），而英语则必须使用。语言之间的这类差异可能相当复杂。以下是从联合国文件中摘录的一个真实例句。我们用红色标注了中文字符的逐词释义，并附上了人工翻译的英文版本： (12.2) 大会/General Assembly 在/on 1982年/1982 12月/December 10日/10 通过了/adopted 第37号/37th 决议/resolution ，核准了/approved 第二次/second 探索/exploration 及/and 和平peaceful 利用/using 外层空间/outer space 会议/conference 的/of 各项/various 建议/suggestions 。 ...

11.5 问答系统的评估

评估问答（Question Answering, QA）系统通常采用三种技术，具体选择取决于问题类型和问答场景。对于多项选择题（如 MMLU 中的问题），我们使用精确匹配（Exact Match）作为评价指标：精确匹配（Exact Match）：预测答案与标准答案完全一致的百分比。对于具有自由文本答案的问题（如 Natural Questions），通常采用词元 F₁ 分数（token F₁ score）来粗略衡量预测答案与参考答案之间的部分字符串重叠程度： F₁ 分数（F₁ Score）：预测答案与标准答案之间的平均词元重叠度。将预测答案和标准答案分别视为词元袋（bag of tokens），为每个问题计算 F₁ 值，再对所有问题取平均。最后，在某些场景中，问答系统会返回多个排序后的答案。此时，我们采用平均倒数排名（Mean Reciprocal Rank, MRR）进行评估（Voorhees, 1999）。 MRR 适用于那些为每个测试问题返回一个短排序列表（如候选答案或段落）的系统，并可将该列表与人工标注的正确答案进行比较。具体而言，对每个测试问题，其得分是首个正确答案所在排名的倒数。例如，若系统为某问题返回了五个答案，但前三个均错误（即排名最高的正确答案位于第 4 位），则该问题的倒数排名得分为 $\frac{1}{4}$。若系统未返回任何正确答案，则得分为 0。系统的 MRR 即为所有测试问题得分的平均值。在某些 MRR 的变体中，得分为 0 的问题会被排除在平均计算之外。更形式化地，设系统对测试集 $Q$ 中的每个问题返回一个排序答案列表（或在变体中，令 $Q$ 表示测试集中得分非零的问题子集），则 MRR 定义为： $$ MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}_i} \tag{11.20} $$ 11.4 问答数据集目录第 12 章机器翻译

11.4 问答数据集

目前已有大量问答（Question Answering, QA）数据集，广泛用于大语言模型的指令微调（instruction tuning）和问答能力评估。这些数据集可从多个维度加以区分，Rogers 等人（2023）对此做了很好的总结。其中一个关键维度是问题的原始目的——它们是真实的信息寻求型（information-seeking）问题，还是专为探测/评测（probing）而设计的问题（用于测试系统或人类的能力）。在“自然问题”一侧，代表性数据集包括 Natural Questions（Kwiatkowski 等，2019），它包含一组匿名化的英文 Google 搜索查询及其答案。答案由标注人员基于维基百科内容生成，包含一个段落长度的长答案（long answer）和一个短语级别的短答案（short span answer）。例如，问题 “When are hops added to the brewing process?”（啤酒酿造过程中何时加入啤酒花？）的短答案是 “the boiling process”（煮沸阶段），而长答案则是来自“Brewing”维基百科页面的一整段文字。另一个类似的自然问题数据集是 MS MARCO（Microsoft Machine Reading Comprehension）系列，包含 100 万条真实且匿名的英文 Bing 搜索查询，每条都配有由人工撰写的答案，以及约 900 万篇相关段落（Bajaj 等，2016）。该数据集既可用于评估检索排序性能，也可用于问答任务。尽管许多数据集以英文为主，但其他语言也存在自然信息寻求型问答资源。例如 DuReader 是一个基于搜索引擎查询和社区问答的中文问答数据集（He 等，2018）。 TyDi QA 数据集包含来自 11 种类型学上差异显著的语言（如阿拉伯语、孟加拉语、斯瓦希里语、俄语和泰语）的 20.4 万对问答样本（Clark 等，2020a）。在 TyDi QA 任务中，系统会收到一个问题和若干来自维基百科文章的段落，需完成两项任务：(a) 选出包含答案的段落（若无则返回 NULL）；(b) 标注最小的答案片段（或 NULL）。在“探测”一侧，典型代表是 MMLU（Massive Multitask Language Understanding）。这是一个常用的大规模多任务语言理解数据集，包含 15,908 道覆盖 57 个领域的知识与推理题，领域涵盖医学、数学、计算机科学、法律等。 MMLU 的题目源自各类面向人类的标准化考试，如美国研究生入学考试（GRE）、医师执照考试（USMLE）和大学先修课程考试（AP）。因此，这些问题并非反映真实用户的信息需求，而是专为评估人类在学术或职业认证场景下的知识水平而设计。图 11.10 展示了部分示例（正确答案已加粗）。 ...

11.3 使用 RAG 回答问题

在此，我们介绍一种利用大语言模型（LLM）回答知识型问题的重要范式：首先从网络或其他大型文档集合中检索出支持性的文本片段，然后基于这些文档生成答案。这种基于检索结果进行生成的方法被称为检索增强生成（Retrieval-Augmented Generation, RAG），其两个组成部分出于历史原因常被分别称为检索器（retriever）和阅读器（reader）（Chen 等，2017a）。图 11.9 概述了这一标准的问答模型。图 11.9 基于检索的问答包含两个阶段：检索阶段从文档集合中返回相关文档；阅读阶段中，大语言模型以这些文档作为提示（prompt）生成答案。如图 11.9 所示的“检索-阅读”两阶段模型中，在第一阶段（检索阶段），我们从一个文本集合中检索出相关段落，例如使用上一节介绍的稠密检索器。在第二阶段（阅读器阶段），我们通过检索增强生成（RAG）来生成答案。将一个大规模预训练语言模型作为基础，把检索到的段落及其他文本作为提示输入，并以自回归方式逐个生成答案词元。 11.3.1 检索增强生成（RAG）标准的阅读器算法是：在检索到的段落条件下，由大语言模型生成答案。这种方法即为检索增强生成（Retrieval-Augmented Generation, RAG）。回顾一下，在简单的条件生成中，我们可以将问答任务转化为词预测问题：给语言模型一个提问，并附加一个如 A: 的标记，暗示接下来应生成答案： Q: 谁写了《物种起源》这本书？ A: 然后，模型基于该文本进行自回归生成。更形式化地说，普通的自回归语言模型通过前面的词元计算整个字符串的概率： $$ p(x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid x_{< i}) $$而用于问答的简单条件生成则将提示（如 Q:）、查询 $q$ 和 A: 拼接在一起： $$ p(x_1, \dots, x_n) = \prod_{i=1}^n p\big(x_i \mid [Q:];\, q;\, [A:];\, x_{< i}\big) $$使用大语言模型的优势在于，其参数中编码了预训练时所学得的海量知识。然而，正如本章开头所述，尽管这种简单的提示生成对许多简单的事实型问题效果不错，但它并非通用的问答解决方案，原因包括：容易产生幻觉；无法向用户提供支持答案的文本证据；无法回答涉及专有数据的问题。检索增强生成的核心思想正是为了解决这些问题：将检索到的段落作为前缀的一部分加入提示中，通常还会附加一段引导语，例如 “请根据以下文本回答问题：”。假设我们有一个查询 $q$，并记基于它检索到的段落集合为 $R(q)$，那么提示可能如下所示： RAG 提示示例 ...

11.2 基于稠密向量的信息检索

传统的 tf-idf 或 BM25 信息检索算法长期以来被认为存在一个概念性缺陷：它们仅在查询与文档之间存在完全相同的词语重叠时才有效。换句话说，用户在提出查询（或问题）时，必须准确猜中答案撰写者所使用的词汇，这一问题被称为词汇不匹配问题（vocabulary mismatch problem）（Furnas 等，1987）。解决该问题的方法是采用能够处理同义关系（synonymy）的模型：不再使用（稀疏的）词频向量，而是使用（稠密的）嵌入向量（embeddings）。这一思想早在上世纪就已提出，称为潜在语义索引（Latent Semantic Indexing, LSI）（Deerwester 等，1990），而在现代则通过 BERT 等编码器实现。目前最强大的方法是将查询和文档同时输入同一个编码器，让 Transformer 的自注意力机制同时看到查询和文档中的所有词元（tokens），从而构建出对两者语义都敏感的联合表示。随后，可以在 [CLS] 词元之上添加一个线性层，用于预测该查询-文档对的相关性得分： $$ \begin{align*} \mathbf{z} &= \text{BERT}(q;[SEP];d)[\text{CLS}] \\ &\text{score}(q,d) = \text{softmax}(\mathbf{U}\mathbf{z}) \tag{11.17} \end{align*} $$ 图 11.7 两种稠密检索方法的示意图（图中连线示意自注意力机制的作用范围）： (a) 使用单一编码器联合编码查询与文档，并在 [CLS] 词元上通过线性层微调生成相关性得分。此方法计算开销过大，通常仅用于重排序（re-scoring）阶段； (b) 使用独立的查询编码器和文档编码器，通过两者 [CLS] 输出向量的点积作为得分。此方法计算高效，但精度略低。该架构如图 11.7a 所示。通常，检索步骤不会在整个文档上进行，而是将文档切分为更小的段落（passages），例如长度为 100 个词元的非重叠固定片段，然后对这些段落而非完整文档进行编码和检索。由于 BERT 的输入窗口限制为 512 个词元，因此需要确保查询和文档能共同容纳其中。例如，可将查询截断至最多 64 个词元，并在必要时截断文档，使得查询、文档、[CLS] 和 [SEP] 总共不超过 512 个词元。随后，整个 BERT 模型连同线性层 $\mathbf{U}$ 可以通过一个包含相关与不相关段落的微调数据集，针对相关性判断任务进行微调。然而，图 11.7a 所示的完整 BERT 架构存在计算开销过大的问题。使用该架构时，每次收到新查询，都必须将整个文档集合中的每一篇文档与该查询一起送入 BERT 编码器进行联合编码！这种巨大的资源消耗在实际应用中是不可行的。 ...

11.1 信息检索

信息检索（Information Retrieval，简称 IR）是研究如何根据用户信息需求检索各类媒体内容的领域。由此构建的 IR 系统通常被称为搜索引擎。本节的目标是提供足够的 IR 概述，以便理解其在问答任务中的应用。对信息检索本身更感兴趣的读者可参阅本章末尾的“历史注记”部分以及 Manning 等人（2008）等教科书。我们所讨论的 IR 任务称为即席检索（ad hoc retrieval）：用户向检索系统提交一个查询（query），系统随后从某个文档集合（collection）中返回一个有序的文档（documents）列表。此处的“文档”指系统所索引和检索的任意文本单位，例如网页、学术论文、新闻文章，甚至更短的片段（如段落）。 “集合”则指用于满足用户请求的一组文档。 “词条”（term）通常指集合中的一个词，但也可能包括短语。最后，查询（query）表示用户以一组词条形式表达的信息需求。即席检索引擎的高层架构如图 11.1 所示。图 11.1 即席 IR 系统的架构。基本的 IR 架构采用我们在第 5 章介绍的向量空间模型：将查询和文档映射为基于一元词频（unigram word counts）的向量，并利用向量之间的余弦相似度对候选文档进行排序（Salton, 1971）。因此，这属于附录 K 中介绍的词袋模型（bag-of-words model）的一个实例，因为其中词语的处理不考虑其在文本中的位置。 11.1.1 词条加权与文档评分我们来看文档与查询之间匹配得分的具体计算方式。在信息检索中，我们不直接使用原始词频，而是为文档中的每个词计算一个词条权重（term weight）。常用的词条加权方案有两种：第5章介绍过的 tf-idf 加权，以及一种稍强一些的变体BM25。为方便读者，此处重新介绍 tf-idf，避免回看第5章。 Tf-idf（这里的“-”是连字符，不是减号）是两个因子的乘积：词频（term frequency, tf）和逆文档频率（inverse document frequency, idf）。词频反映一个词在文档中出现的频繁程度；在文档中出现次数越多的词，越可能体现该文档的内容。通常我们使用词频的以10为底的对数（$\log_{10}$），而非原始计数。其理由是：一个词在文档中出现100次，并不意味着它对该文档语义的相关性就是出现1次时的100倍。此外，对于计数为 0 的情况需特殊处理，因为我们无法对 0 取对数。1 $$ \begin{align*} tf_{t,d} = \begin{cases} 1 + \log_{10} \text{count}(t,d) & \text{if } \text{count}(t,d) > 0 \\ 0 & \text{otherwise} \end{cases} \tag{11.4} \end{align*} $$若采用对数加权，那么在文档中出现 0 次的词条 tf = 0；出现1次时，tf = 1 + log₁₀(1) = 1 + 0 = 1；出现10次时，tf = 1 + log₁₀(10) = 2；出现100次时，tf = 1 + log₁₀(100) = 3；出现1000次时，tf = 4，依此类推。 ...

12.1 语言差异与类型学

世界上大约有7000种语言。人类语言的某些方面似乎是普遍的，适用于所有这些语言，或者可以说是统计上的普遍性，适用于大多数语言。许多普遍性源于语言作为人类交流系统的功能性角色。例如，每一种语言似乎都有指代“人”的词汇，有关于吃和喝的表达，以及表示礼貌或不礼貌的方式。还有结构上的语言普遍性；例如，每一种语言似乎都有名词和动词（第 17 章），都有提问的方法，或者发出命令，并且有语言机制来表示同意或不同意。然而，语言在很多方面也存在差异（这一点自古以来就被指出；见图 12.1）。理解是什么导致了这些翻译差异（Dorr, 1994）可以帮助我们构建更好的机器翻译模型。我们通常区分两类差异。一类是独特性和词汇层面的差异，必须逐个处理。例如，“狗”这个词在不同语言中的说法差异极大。另一类是系统性差异，可以用统一的方式建模。例如，许多语言把动词放在语法宾语之前，而另一些语言则把动词放在语法宾语之后。研究这些系统性的跨语言相似性和差异的学科被称为语言类型学（linguistic typology）。本节简要介绍一些影响机器翻译的语言类型特征；感兴趣的读者可以查阅《世界语言结构地图集》（World Atlas of Language Structures, Dryer and Haspelmath, 2013），该书汇总了大量跨语言的结构规律。图12.1 巴别塔，彼得·勃鲁盖尔于1563年创作。来自维基共享资源，维也纳艺术史博物馆收藏。 12.1.1 词序类型学正如我们在前面英语与日语的对比示例中所暗示的那样，不同语言在简单陈述句中动词、主语和宾语的基本词序上存在差异。例如，德语、法语、英语和汉语普通话都属于 SVO（主-动-宾）语言，这意味着动词通常位于主语和宾语之间。相比之下，印地语和日语是 SOV 语言，即动词通常出现在基本小句的末尾；而爱尔兰语和阿拉伯语则是 VSO 语言。两种具有相同基本词序类型的语言，往往在其他方面也表现出相似性。例如，VO 型语言通常使用前置词（prepositions），而 OV 型语言则通常使用后置词（postpositions）。让我们更详细地看看前面提到的例子。在下面这个 SVO 的英语句子中，动词 wrote 后接其宾语 a letter，以及介词短语 to a friend。在这个介词短语中，前置词 to 后接其论元（argument，即动词所作用的核心成分） a friend。阿拉伯语采用 VSO 语序，同样将动词置于宾语之前，并使用前置词。相比之下，在下面的日语例子中，这些顺序全部反转：动词前接其论元，而后置词则后接其论元。 (12.3) English: He wrote a letter to a friend Japanese: tomodachi ni tegami-o kaita friend to letter wrote Arabic: katabt risāla li ṡadq wrote letter to friend 其他类型的词序偏好则因语言而异，呈现出独特性。在一些 SVO 语言（如英语和汉语）中，形容词通常出现在名词之前；而在另一些语言（如西班牙语和现代希伯来语）中，形容词则出现在名词之后： ...

第11章信息检索与检索增强生成

有两次，我被人问到：“请问，巴贝奇先生，如果您把错误的数字输入机器，它会输出正确的答案吗？”……我实在无法理解，究竟是怎样的思想混乱才会引发这样的问题。 ——巴贝奇（1864）人们需要获取信息。因此，几乎从计算机诞生之初，我们就开始向它们提问了。早在 1961 年，就已出现能回答美国棒球统计数据问题的系统，比如：“洋基队在七月打了多少场比赛？”（Green 等，1961）。甚至在 20 世纪 70 年代的虚构作品中，也有类似的计算机。道格拉斯·亚当斯在《银河系漫游指南》中创造的“深思”（Deep Thought）计算机，就曾回答过“生命、宇宙以及一切的终极问题”。1 由于大量知识都以文本形式存在，早在大语言模型（LLM）出现之前，问答系统就已达到人类水平的表现。例如，IBM 的 Watson 系统在 2011 年赢得了电视智力竞赛节目《危险边缘》（Jeopardy!），在回答如下问题时超越了人类选手：威廉·威尔金森所著《瓦拉几亚与摩尔多瓦公国纪事》启发了这位作家创作其最著名的小说 2 因此很自然地，大语言模型的一项重要功能，就是通过回答用户的问题来满足人类的信息需求。由于大量信息存在于网络上，问答任务与网络信息检索密切相关——后者正是搜索引擎所执行的任务。事实上，这两者的界限正变得越来越模糊：现代搜索引擎已与大语言模型深度集成。考虑一些简单的信息需求，例如可以用简短文本中的事实直接回答的事实型问题（factoid questions）： (11.1) 卢浮宫博物馆位于哪里？ (11.2) 核爆炸的能量来自何处？ (11.3) 在 LaTeX 中如何打出花体字母 l？要让大语言模型回答这些问题，我们只需对其进行提示即可！例如，一个已在问答任务上经过指令微调（参见第9章）的预训练大语言模型，可以直接对以下问题进行条件生成：卢浮宫博物馆位于哪里？并将其生成的回复作为答案。这种方法之所以有效，是因为大语言模型在其预训练数据中接触过大量事实信息（包括卢浮宫的位置），并将这些信息编码到了模型参数中。这类事实性知识似乎主要存储在 Transformer 模型中规模庞大的前馈层连接之中（Geva 等，2021；Meng 等，2022）。仅靠提示（prompting）大语言模型，对许多事实型问题而言确实是一种有效的方法。但知识被存储在大语言模型前馈层的权重中，这一特性使得单纯依靠提示来准确回答事实性问题会带来若干问题。第一个、也是最主要的问题是：大语言模型经常对事实性问题给出错误答案！大语言模型会产生幻觉（hallucinate）。所谓“幻觉”，是指模型生成的内容与现实世界的事实不符。也就是说，当被提问时，大语言模型有时会编造听起来合理、但实际上错误的答案。例如，Dahl 等人（2024）发现，在回答法律领域的问题（如特定法律案件）时，大语言模型产生幻觉的比例高达 69% 到 88%！即使正确的事实其实已经存储在模型参数中，大语言模型有时仍会给出错误答案。这似乎是因为前馈层未能成功调用其参数中已有的知识（Jiang 等，2024）。更麻烦的是，我们往往难以判断大语言模型是否正在产生幻觉。部分原因在于，大语言模型的置信度校准（calibration）效果很差。在一个校准良好（well-calibrated）的系统中，系统对其答案正确性的置信度应与该答案实际正确的概率高度相关。也就是说，如果一个校准良好的系统答错了，它至少可能会使用模糊措辞，或建议用户去查阅其他来源。但大语言模型缺乏良好的校准能力，常常以十足的把握给出完全错误的答案（Zhou 等，2024）。使用简单提示方法回答问题的第二个问题是：通过提示大语言模型仅依靠其预训练参数来作答，无法让我们就专有数据（proprietary data）进行提问。我们希望使用语言模型来回答关于专有数据的事实性问题，例如个人电子邮件。或者，在医疗健康应用中，我们可能希望将语言模型应用于医疗记录。又或者，公司可能拥有包含客户服务或内部使用答案的内部文档。再或者，律师事务所需要就法律证据开示（legal discovery）中涉及的的专有文档提出问题。所有这些数据（希望如此）都不在大语言模型预训练所用的大规模网络语料库中。 ...

9.5 用于序列标注的微调：命名实体识别

在序列标注（sequence labeling）任务中，网络的目标是为输入序列中的每个词元分配一个来自小型固定标签集的标签。其中最常见的序列标注任务之一是命名实体识别（Named Entity Recognition, NER）。 9.5.1 命名实体粗略地说，命名实体（named entity）是指任何可以用专有名称指代的事物，例如人、地点或组织。命名实体识别（NER）的任务是从文本中找出构成专有名称的文本片段（spans），并为其标注对应的实体类型。最常用的四种实体标签是：PER（Person，人物）、LOC（Location，地点）、ORG（Organization，组织）、GPE（Geo-Political Entity，地缘政治实体，如国家、州、城市等）。不过，“命名实体”这一术语通常被扩展使用，也包括一些严格意义上并非“实体”的表达，例如时间表达式（如日期、时刻），甚至数值表达式（如价格）。以下是一个 NER 标注器的输出示例： Citing high fuel prices, [ORG United Airlines] said [TIME Friday] it has increased fares by [MONEY $6] per round trip on flights to some cities also served by lower-cost carriers. [ORG American Airlines], a unit of [ORG AMR Corp.], immediately matched the move, spokesman [PER Tim Wagner] said. [ORG United], a unit of [ORG UAL Corp.], said the increase took effect [TIME Thursday] and applies to most routes where it competes against discount carriers, such as [LOC Chicago] to [LOC Dallas] and [LOC Denver] to [LOC San Francisco]. ...

目录#

目录