7.2 文本的条件生成：基本原理

语言模型背后的一个基本原理是，几乎所有我们想用语言完成的任务，都可以建模为文本的条件生成（conditional generation）。（这里特指解码器语言模型，即本章和下一章讨论的对象。）

所谓条件生成，是指在给定一段输入文本的条件下生成新文本。具体来说，我们向大语言模型（LLM）提供一段输入文本，称为提示（prompt），然后让 LLM 以该提示及其后续已生成的词元为条件，逐个生成新的词元。生成过程首先计算在已有上下文 $w_{

后续章节会详述所有技术细节，但本节的目标只是建立直观理解。仅仅通过计算下一个词的概率，LLM 如何完成各种不同的语言任务？

假设我们要做情感分析这类分类任务。我们可以将其视为条件生成问题，给语言模型如下提示：

The sentiment of the sentence “I like Jackie Chan” is:

然后比较接下来出现 “positive” 和 “negative” 这两个词元的条件概率，看哪个更高。如图 7.4 所示，我们对比以下两个概率：

P(“positive” | “The sentiment of the sentence ‘I like Jackie Chan’ is:”)
P(“negative” | “The sentiment of the sentence ‘I like Jackie Chan’ is:”)

图 7.4 计算在给定前缀后，positive 与 negative 两个词元出现的概率。

如果 positive 的概率更高，我们就判定该句情感为正面；反之，若 negative概率更高，则判定为负面。

同样的思路也适用于问答任务：系统接收一个问题，需给出文本形式的答案。我们可以将问答任务转化为词元预测问题：向语言模型输入一个问题，并附上一个表示答案即将开始的标记（如 A:），例如：

Q: Who wrote the book “The Origin of Species”? A:

接着，我们让语言模型基于该前缀计算下一个词元的概率分布：

P(w | Q: Who wrote the book “The Origin of Species”? A: )

并观察哪些词元 $w$ 具有高概率。如图 7.5 所示，我们可能会发现 Charles 的概率非常高。如果我们选择 Charles 并将其加入前缀，再计算新前缀下的下一个词元概率：

P(w | Q: Who wrote the book “The Origin of Species”? A: Charles)

此时，Darwin 很可能成为概率最高的词元，于是我们选择它作为答案的下一部分。

图 7.5 通过计算问题前缀之后各词元的概率来回答问题；在此例中，正确词元 Charles 拥有最高概率。