第 10 章训练后阶段：指令微调、对齐与测试时计算

“哈尔，”鲍曼说道，此刻语气冰冷而镇定。“我并未丧失行动能力。如果你不听从我的指令，我将不得不把你断开。”
——阿瑟·C·克拉克

基础的预训练大语言模型（LLM）已被成功应用于多种任务。仅凭一个简单提示（prompt），无需更新模型底层参数，即可在新任务上取得效果。然而，若一个模型的唯一训练目标只是基于大量预训练文本预测下一个词，那么对其能力的期望终究存在局限。这一点可通过早期 GPT 模型在遵循指令方面的失败案例看出（Ouyang 等，2022）。

提示：用几句话向六岁孩子解释登月。
输出：向六岁孩子解释万有引力理论。
提示：翻译成法语：“The small dog”
输出：The small dog crossed the road.（那只小狗穿过了马路。）

在这些例子中，大语言模型忽略了用户请求的真实意图，转而依赖其自回归生成的自然倾向——即根据上下文生成连贯的后续文本。第一个例子中，模型输出的内容虽与原始请求略有相似，但并未真正作答；第二个例子中，模型直接续写了输入句子，完全无视了翻译指令。我们可以总结：这类问题的核心在于，大语言模型还不够有用（helpful）。它们需要额外训练，才能可靠地遵循指令。

大语言模型的另一个缺陷是可能造成危害（harmful）。其预训练过程不足以确保模型具备安全性（safe）。熟悉阿瑟·C·克拉克的小说《2001：太空漫游》或斯坦利·库布里克同名电影的读者都知道，上述引文出现在人工智能 HAL 产生偏执妄想、试图杀害飞船船员的情节中。与 HAL 不同，语言模型并不具备意图性，也不会出现类似偏执思维的心理问题。但它们确实具有造成伤害的能力。例如，它们可能生成危险（dangerous）文本，怂恿人们对自己或他人实施有害行为；也可能生成虚假（false）信息，比如对医学问题给出极其错误的回答；还可能对用户进行言语攻击，输出有毒（toxic）内容。 Gehman 等人（2020）的研究表明，即使输入的提示完全无害，大型语言模型仍可能输出仇恨言论，辱骂用户。此外，语言模型还会生成针对许多人口群体的刻板印象（Cheng 等，2023）以及负面态度（Brown 等，2020；Sheng 等，2019）。

大语言模型之所以既不够有用又可能造成危害，部分原因在于其预训练目标（即在文本中准确预测下一个词）与人类对模型“有用且无害”的需求之间存在错位。

为解决这两个问题，语言模型引入了两类额外的训练方法，统称为模型对齐（model alignment）。这些方法旨在调整大语言模型，使其更好地对齐（align）人类对模型“有用且无害”的期望。第一种技术是指令微调（instruction tuning），有时也称为监督微调（SFT, supervised finetuning）。该方法使用包含指令或问题及其对应回答的语料对模型进行微调。我们将在下一节详细介绍。

第二种技术是偏好对齐（preference alignment），其具体实现方式包括基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO），因此有时也以 RLHF 或 DPO 代称。该方法首先训练一个独立的模型，用于判断候选回答在多大程度上符合人类偏好。随后，利用该模型对基础模型进行微调。我们将在第 10.2 节介绍偏好对齐。

我们将基础模型（base model）定义为已完成预训练、但尚未通过指令微调或偏好对齐进行对齐（aligned）的模型。我们将上述两个步骤统称为训练后阶段（post-training），因为它们均发生在模型预训练完成之后。在本章末尾，我们将简要讨论训练后阶段的另一个方面——测试时计算（test-time compute）。