2.6 语料库

词语并非凭空产生。我们所研究的任何一段文本，都是由一个或多个特定的说话者或写作者，在特定语言的特定方言中，在特定的时间、特定的地点，出于特定的目的而产生的。

其中最重要的变异维度或许是语言本身。自然语言处理算法若能适用于多种语言，则其价值最大。根据在线语言目录《民族语》（Ethnologue）的统计（Simons 和 Fennig，2018），截至本文写作时，世界上共有7097种语言。在开发算法时，应在多种语言上进行测试，尤其是那些具有不同语言特性的语言；与此相对，目前存在一种令人遗憾的趋势，即自然语言处理算法往往仅在英语上进行开发或测试（Bender，2019）。即使算法的应用范围超出了英语，也往往集中于大型工业化国家的官方语言（如中文、西班牙语、日语、德语等），但我们不应将工具局限于这些少数语言。此外，大多数语言本身也包含多种变体，通常由不同地区或不同社会群体使用。因此，例如，如果我们处理的文本使用了非裔美国人英语（AAE）或非裔美国人白话英语（AAVE）的特征——这是数百万非裔美国人社区成员使用的英语变体（King，2020），我们就必须使用能够适应这些语言变体特征的自然语言处理工具。推文（Twitter posts）中可能包含非裔美国人英语的常见表达，例如 iont（相当于主流美国英语（MAE）中的 I don’t），或 talmbout（对应于 MAE 的 talking about），这两个例子都会影响词语切分（Blodgett 等，2016；Jones，2015）。

在一次交际行为中混合使用多种语言的现象也十分普遍，这种现象被称为语码转换（code switching）。语码转换在全球范围内极为常见；以下是包含西班牙语和（音译的）印地语与英语混合使用的例子（Solorio 等，2014；Jurgens 等，2017）：

(2.13) Por primera vez veo a @username actually being hateful! it was beautiful:)
[For the ﬁrst time I get to see @username actually being hateful! it was beautiful:)]
(2.20) dost tha or ra- hega … dont wory … but dherya rakhe
[“he was and will remain a friend … don’t worry … but have faith”]

另一个变异维度是体裁（genre）。我们的算法需要处理的文本可能来自新闻通讯、小说或非小说类书籍、科学论文、维基百科或宗教文本。也可能来自口语体裁，如电话对话、商务会议、警察随身摄像头录音、医疗访谈，或电视节目和电影的转录文本。还可能来自工作场景，如医生笔记、法律文本，或议会或国会的会议记录。

文本也反映了作者（或说话者）的人口统计学特征：他们的年龄、性别、种族、社会经济阶层都会影响我们所处理文本的语言特性。

最后，时间也同样重要。语言随时间而演变，对于某些语言，我们拥有来自不同历史时期的优质语料库。

由于语言具有如此强的语境依赖性，因此在基于语料库开发语言处理的计算模型时，必须考虑语言是由谁产生的、在何种情境下产生的、以及出于何种目的。那么，数据集的使用者如何获知所有这些细节？最佳方式是语料库创建者为每个语料库构建一份数据表（datasheet）（Gebru 等，2020）或数据声明（data statement）（Bender 等，2021）。数据表需明确说明数据集的以下属性：

动机（Motivation）：语料库为何被收集？由谁收集？谁资助了该项目？

情境（Situation）：文本是在何时、何种情境下被书写或说出的？例如，是否存在特定任务？语言最初是口语对话、经过编辑的文本、社交媒体交流，还是独白与对话？

语言变体（Language variety）：语料库使用的是何种语言（包括方言/地区）？

说话者人口统计学信息（Speaker demographics）：文本作者的年龄、性别等信息是什么？

收集过程（Collection process）：数据规模有多大？如果是子样本，是如何抽样的？数据收集是否获得了知情同意？数据经过了哪些预处理？提供了哪些元数据？

标注过程（Annotation process）：标注内容是什么？标注人员的人口统计学特征如何？他们接受了何种培训？数据是如何被标注的？

分发（Distribution）：是否存在版权或其他知识产权限制？