4.12 分类中的危害防范

在使用分类器时，必须警惕并避免可能造成的各类危害——这些危害不仅存在于朴素贝叶斯分类器中，也存在于后续章节将介绍的其他分类算法中。

一类典型的危害是表征性伤害（representational harms）（Crawford, 2017；Blodgett et al., 2020），即系统通过贬低某个社会群体而造成的伤害，例如强化对该群体的负面刻板印象。
例如，Kiritchenko 和 Mohammad（2018）评估了200个情感分析系统在成对句子上的表现：这些句子内容完全相同，仅在人名上有所区别——一组使用常见的非裔美国人名字（如 Shaniqua），另一组使用常见的欧裔美国人名字（如 Stephanie），这些人名选自 Caliskan 等人（2017）的研究（该研究将在第6章讨论）。
他们发现，大多数系统对包含非裔美国人名字的句子赋予了更低的情感得分和更强烈的负面情绪，这反映出并进一步强化了将非裔美国人与负面情绪相关联的刻板印象（Popp et al., 2003）。

在其他任务中，分类器可能同时引发表征性伤害和其他类型的伤害，例如言论压制（silencing）。以毒性检测（toxicity detection）这一重要的文本分类任务为例：其目标是识别仇恨言论、辱骂、骚扰或其他形式的有害语言。尽管这类分类器的初衷是减少社会伤害，但它们本身也可能造成新的伤害。例如，研究人员发现，一些被广泛使用的毒性检测模型会错误地将某些无害语句标记为“有毒”，仅仅因为这些语句提到了某些身份群体，如女性（Park et al., 2018）、盲人（Hutchinson et al., 2020）或同性恋者（Dixon et al., 2018；Dias Oliva et al., 2021）；或者仅仅因为使用了某些语言变体的特征表达，例如非裔美国人白话英语（African-American Vernacular English, AAVE）（Sap et al., 2019；Davidson et al., 2019）。这类假阳性错误可能导致相关群体自身或关于他们的正当言论被平台屏蔽或压制。

这些问题的根源可能来自训练数据中的偏见或其他缺陷；一般来说，机器学习系统会复制甚至放大其训练数据中存在的偏见。‘但问题也可能源于标签本身（例如人工标注者的偏见）、所使用的资源（如情感词典或预训练词嵌入等模型组件），甚至模型架构本身（例如模型被优化的目标函数）。尽管目前已有大量研究致力于缓解这些偏见（例如通过审慎选择训练数据来源），但我们尚无普适的解决方案。因此，在引入任何自然语言处理模型时，都必须认真审视上述因素，并予以明确说明。一种有效做法是为每个模型版本发布一份模型卡片（model card）（Mitchell et al., 2019）。模型卡片用于记录机器学习模型的关键信息，包括：

所用训练算法及参数
训练数据的来源、动机与预处理方式
评估数据的来源、动机与预处理方式
预期用途与目标用户
模型在不同人口统计群体或其他环境情境下的性能表现