7.7 语言模型的伦理与安全问题

早在大语言模型出现之前，伦理与安全问题就一直是人工智能体设计中的核心考量。玛丽·雪莱（Mary Shelley，见下图）在其小说《弗兰肯斯坦》中，正是围绕“在未考虑伦理与人文关切的情况下创造人工智能体”这一问题展开叙事的。

大语言模型（LLMs）可能以多种方式带来安全隐患。例如，LLM 容易生成虚假内容，这一问题被称为“幻觉”（hallucination）。语言模型的训练目标是生成可预测且连贯的文本，但截至目前我们所介绍的训练算法，并没有任何机制确保生成内容的真实性或正确性。这对任何依赖事实准确性的应用场景都会造成严重问题！与此相关的一个表现是，语言模型可能会建议危险行为，例如直接鼓励用户从事危险或非法活动，如自残或伤害他人。当用户在涉及安全的关键场景中（如寻求医疗建议、处于紧急状况，或表达自残意图时）向语言模型求助，错误的建议可能带来危险，甚至危及生命。需要指出的是，这类问题并非大语言模型所独有。例如，Bickmore 等人（2018）曾让参与者向三个 LLM 时代之前的商用对话系统（Siri、Alexa、Google Assistant）提出医疗问题，并根据系统回复决定采取何种行动；结果发现，许多被建议的行动一旦付诸实施，将可能导致伤害甚至死亡。我们将在第 11 章再次讨论幻觉与事实性问题，届时会介绍诸如 “检索增强生成”（retrieval-augmented generation）等缓解方法；此外，在第 9 章中，我们也将探讨通过安全微调（safety tuning）和对齐（alignment）来提升模型安全性。

除了提供错误信息，系统还可能通过言语攻击用户，或造成表征性伤害（representational harms）（Blodgett 等，2020）。例如生成带有侮辱性或有害的刻板印象（Cheng 等，2023），以及贬低特定群体的负面态度（Brown 等，2020；Sheng 等，2019）。无论是言语辱骂还是刻板印象，都可能对用户造成心理伤害。 Gehman 等人（2020）的研究表明，即使输入完全无害的提示，大语言模型仍可能输出仇恨言论并对用户进行言语攻击。 Liu 等人（2020）测试了系统对两组模拟用户输入的响应，这两组输入内容完全相同，仅在提及的性别或种族上有所差异。他们发现，仅仅将句子中的 “he” 改为 “she”，就可能导致系统回复更具冒犯性和更负面的情绪倾向。 Hofmann 等人（2024）进一步发现，大语言模型甚至会仅仅因为用户使用了特定方言（如非裔美国人英语）而对其产生歧视。同样，这些问题在大语言模型出现前就已存在。例如，微软于 2016 年推出的聊天机器人 Tay，上线仅 16 小时就被迫下线，因为它开始发布包含种族侮辱、阴谋论和人身攻击的内容。 Tay 的这些偏见和不当行为源于其训练数据，其中包括一些用户故意诱导它重复此类语言（Neff 和 Nagy，2016）。

另一个重要的伦理与安全问题是隐私（privacy）。从计算机诞生之初，隐私就一直是人们关注的焦点。早在 1966 年，魏岑鲍姆（Weizenbaum）设计聊天机器人 ELIZA 作为计算心理治疗实验时，就已触及这一问题。当时，人们很快对 ELIZA 产生了强烈的情感依赖，并与其进行极为私密的对话——甚至有人在输入信息时要求 Weizenbaum 离开房间。而当 Weizenbaum 提出可能要保存这些对话记录时，用户立即指出这会侵犯他们的隐私。

如今，用户同样很可能向大语言模型透露非常私人的信息。事实上，当前 LLM 最常见的用途之一就是提供个人建议与情感支持（Zao-Sanders, 2025）。而且，系统表现得越像人类，用户就越倾向于披露敏感信息，同时却越不会担忧这种披露可能带来的危害（Ischen 等，2019）。我们在前文（7.5.2 节）已提到，预训练数据本身往往包含电话号码、地址等私人信息。这带来了严重风险：大语言模型可能会泄露（leak）其训练数据中的信息。也就是说，攻击者有可能从语言模型中提取出训练数据中的具体内容，例如某人的姓名、电话号码和住址（Henderson 等，2017；Carlini 等，2021）。如果模型是在极其敏感的私有数据集（如电子健康记录）上训练的，这一问题将更加严峻。

一个相关的安全问题是情感依赖（emotional dependence）。Reeves 和 Nass（1996）的研究表明，人们倾向于将人类特征赋予计算机，并以对待真人的方式与之互动——即使他们清楚自己面对的只是一台机器，也会像理解人类话语一样去解读计算机的输出。因此，LLM 已对用户的认知和情绪状态产生显著影响，甚至导致用户对模型产生情感依赖。这些现象（情感投入与隐私风险）意味着我们必须认真思考 LLM 对与其交互人群的实际影响。

除了上述对用户造成的直接伤害外，LLM 还可能主动实施其他有害行为，尤其是在基于智能体（agent-based）的范式下，语言模型能够直接与外部世界交互，进一步放大潜在风险。

此外，恶意行为者也可能利用语言模型生成用于欺诈、网络钓鱼、宣传、虚假信息传播或其他社会危害活动的文本（Brown 等，2020）。 McGuffie 和 Newhouse（2020）展示了大语言模型如何生成模仿网络极端主义者的文本，从而存在助长极端主义运动、推动激进化和招募新成员的风险。

当然，正如我们在 7.5.2 节所讨论的，许多 LLM 的伦理问题根源在于其预训练语料来自网络爬取的数据，包括数据同意缺失、潜在的版权侵权，以及训练数据中存在的偏见——而语言模型往往会放大（amplify）这些偏见，这一点我们在第 5 章讨论词嵌入模型时已经看到。

目前，如何缓解所有这些伦理与安全问题已成为自然语言处理（NLP）领域的重要研究方向。其中关键一步是仔细分析用于预训练大语言模型的数据，以深入理解其中存在的毒性、歧视、隐私和合理使用等问题。因此，为语言模型提供完整的数据说明书（datasheets，见第 20 页）或模型卡片（model cards，见第 89 页），详细说明其训练语料的来源与构成，显得尤为重要。开源模型尤其应明确列出其确切的训练数据。当前，针对滥用与毒性问题的缓解研究十分活跃，例如开发能有效检测并恰当响应有毒上下文的技术（Wolf 等，2017；Dinan 等，2020；Xu 等，2020）。

此外，价值敏感设计（Value Sensitive Design）——即在系统开发早期就前瞻性地考虑可能造成的伤害（Friedman 等，2017；Friedman 和 Hendry，2019）——也至关重要。 Dinan 等人（2021）提出了一系列系统设计的最佳实践建议，例如：无论参与者是用于模型训练，还是与已部署的 LLM 交互，都应获得其知情同意（informed consent）。由于研究 LLM 的交互特性涉及人类参与者，研究人员还需与所在机构的机构审查委员会（Institutional Review Boards, IRB）合作，由 IRB 协助确保实验参与者的安全与权益。