“哈尔,”鲍曼说道,此刻语气冰冷而镇定。“我并未丧失行动能力。如果你不听从我的指令,我将不得不把你断开。”

——阿瑟·C·克拉克

基础的预训练大语言模型(LLM)已被成功应用于多种任务。 仅凭一个简单提示(prompt),无需更新模型底层参数,即可在新任务上取得效果。 然而,若一个模型的唯一训练目标只是基于大量预训练文本预测下一个词,那么对其能力的期望终究存在局限。 这一点可通过早期 GPT 模型在遵循指令方面的失败案例看出(Ouyang 等,2022)。

提示:用几句话向六岁孩子解释登月。
输出:向六岁孩子解释万有引力理论。

提示:翻译成法语:“The small dog”
输出:The small dog crossed the road.(那只小狗穿过了马路。)

在这些例子中,大语言模型忽略了用户请求的真实意图,转而依赖其自回归生成的自然倾向——即根据上下文生成连贯的后续文本。 第一个例子中,模型输出的内容虽与原始请求略有相似,但并未真正作答;第二个例子中,模型直接续写了输入句子,完全无视了翻译指令。 我们可以总结:这类问题的核心在于,大语言模型还不够有用(helpful)。它们需要额外训练,才能可靠地遵循指令。

大语言模型的另一个缺陷是可能造成危害(harmful)。 其预训练过程不足以确保模型具备安全性(safe)。 熟悉阿瑟·C·克拉克的小说《2001:太空漫游》或斯坦利·库布里克同名电影的读者都知道,上述引文出现在人工智能 HAL 产生偏执妄想、试图杀害飞船船员的情节中。 与 HAL 不同,语言模型并不具备意图性,也不会出现类似偏执思维的心理问题。 但它们确实具有造成伤害的能力。例如,它们可能生成危险(dangerous)文本,怂恿人们对自己或他人实施有害行为;也可能生成虚假(false)信息,比如对医学问题给出极其错误的回答;还可能对用户进行言语攻击,输出有毒(toxic)内容。 Gehman 等人(2020)的研究表明,即使输入的提示完全无害,大型语言模型仍可能输出仇恨言论,辱骂用户。 此外,语言模型还会生成针对许多人口群体的刻板印象(Cheng 等,2023)以及负面态度(Brown 等,2020;Sheng 等,2019)。

大语言模型之所以既不够有用又可能造成危害,部分原因在于其预训练目标(即在文本中准确预测下一个词)与人类对模型“有用且无害”的需求之间存在错位。

为解决这两个问题,语言模型引入了两类额外的训练方法,统称为模型对齐(model alignment)。 这些方法旨在调整大语言模型,使其更好地对齐(align)人类对模型“有用且无害”的期望。 第一种技术是指令微调(instruction tuning),有时也称为监督微调(SFT, supervised finetuning)。 该方法使用包含指令或问题及其对应回答的语料对模型进行微调。我们将在下一节详细介绍。

第二种技术是偏好对齐(preference alignment),其具体实现方式包括基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO),因此有时也以 RLHF 或 DPO 代称。 该方法首先训练一个独立的模型,用于判断候选回答在多大程度上符合人类偏好。 随后,利用该模型对基础模型进行微调。我们将在第 10.2 节介绍偏好对齐。

我们将基础模型(base model)定义为已完成预训练、但尚未通过指令微调或偏好对齐进行对齐(aligned)的模型。 我们将上述两个步骤统称为训练后阶段(post-training),因为它们均发生在模型预训练完成之后。 在本章末尾,我们将简要讨论训练后阶段的另一个方面——测试时计算(test-time compute)。