6.11 嵌入中的偏见

除了能够从文本中学习词义之外，令人遗憾的是，嵌入还会再现文本中隐含的偏见和刻板印象。正如前一节所示，嵌入大致可以建模关系相似性：例如，“queen”（女王）是“king”（国王）− “man”（男人）+ “woman”（女人）最接近的词，这暗示了类比关系 man:woman::king:queen（男人对女人如同国王对女王）。然而，这些相同的嵌入类比也暴露了性别刻板印象。例如，Bolukbasi 等人（2016）发现，在基于新闻文本训练的 word2vec 嵌入中，“computer programmer” − “man” + “woman” 最接近的职业是 “homemaker”（家庭主妇）；嵌入还暗示了这样的类比：“father”（父亲）之于“doctor”（医生），如同“mother”（母亲）之于“nurse”（护士）。这可能导致 Crawford（2017）和 Blodgett 等人（2020）所称的分配性伤害（allocational harm）—— 即系统在资源（如工作机会或信贷）分配上对不同群体不公平。例如，若招聘算法使用嵌入来筛选潜在程序员或医生候选人，就可能错误地降低包含女性姓名文档的权重。

事实证明，嵌入不仅反映输入文本的统计特性，还会放大偏见：性别化术语在嵌入空间中变得比原始文本统计中更加性别化（Zhao 等, 2017；Ethayarajh 等, 2019b；Jia 等, 2020），且这种偏见甚至比现实劳动力就业统计数据中的偏见更为夸张（Garg 等, 2018）。

嵌入还编码了人类推理中固有的内隐联想。 内隐联想测验（Implicit Association Test, IAT；Greenwald 等, 1998）通过测量人们对不同类别词汇进行分类时的反应延迟差异，来评估其对概念（如“花朵”或“昆虫”）与属性（如“愉快”与“不愉快”）之间的联想强度。[^7] 利用此类方法，研究发现美国民众倾向于将非裔美国人姓名与负面词汇关联（相比欧裔美国人姓名更甚），男性姓名更多与数学关联、女性姓名更多与艺术关联，老年人姓名则与负面词汇关联（Greenwald 等, 1998；Nosek 等, 2002a, 2002b）。 Caliskan 等人（2017）使用 GloVe 向量和余弦相似度（而非人类反应时间）成功复现了所有这些内隐联想结果。例如，像 “Leroy” 和 “Shaniqua” 这样的非裔美国人姓名与负面词汇的 GloVe 余弦相似度更高，而像 “Brad”、“Greg”、“Courtney” 这样的欧裔美国人姓名则与正面词汇的余弦相似度更高。这类嵌入问题属于 Crawford（2017）和 Blodgett 等人（2020）所说的表征性伤害（representational harm）——即系统贬低甚至忽视某些社会群体所造成的伤害。因此，任何利用词情感信息的嵌入感知算法都可能加剧对非裔美国人的偏见。

[^7] 简言之，如果人们将“花朵”与“愉快”、“昆虫”与“不愉快”相关联，那么当实验要求他们对“花朵”（雏菊、鸢尾、丁香）和“愉快词”（爱、欢笑、愉悦）按绿色按钮，对“昆虫”（跳蚤、蜘蛛、蚊子）和“不愉快词”（虐待、仇恨、丑陋）按红色按钮时，他们的反应速度会快于不一致条件（例如对“花朵”和“不愉快词”按红键，对“昆虫”和“愉快词”按绿键）。

近期研究聚焦于尝试消除此类偏见的方法，例如开发一种嵌入空间变换，在去除性别刻板印象的同时保留定义性的性别差异（Bolukbasi 等, 2016；Zhao 等, 2017），或修改训练过程本身（Zhao 等, 2018b）。然而，尽管这类去偏（debiasing）方法可能减轻嵌入中的偏见，却无法彻底消除（Gonen 和 Goldberg, 2019），这仍然是一个开放性问题。

历史嵌入也被用于衡量过去的偏见。Garg 等人（2018）利用历史文本训练的嵌入，测量了20世纪不同年代职业词与各种族或性别姓名之间的关联程度（例如，女性姓名与男性姓名相对于“图书管理员”或“木匠”等职业词的相对余弦相似度）。他们发现，这些余弦值与历史上各职业中女性或少数族裔的实际就业比例高度相关。历史嵌入还能复现旧有的种族刻板印象调查结果：例如，1933年实验参与者倾向于将“勤劳”或“迷信”等形容词与华人族群关联，这种倾向与使用1930年代文本训练的嵌入中，华人姓氏与这些形容词之间的余弦相似度显著相关。研究者还记录了历史上的性别偏见，例如，与能力相关的形容词（如“聪明”、“睿智”、“体贴”、“足智多谋”）与男性词的余弦相似度高于女性词，并且自1960年以来，这种偏见已缓慢减弱。

我们将在后续章节中再次探讨自然语言处理中偏见作用这一重要议题。