词语并非凭空产生。 我们所研究的任何一段文本,都是由一个或多个特定的说话者或写作者,在特定语言的特定方言中,在特定的时间、特定的地点,出于特定的目的而产生的。
其中最重要的变异维度或许是语言本身。 自然语言处理算法若能适用于多种语言,则其价值最大。 根据在线语言目录《民族语》(Ethnologue)的统计(Simons 和 Fennig,2018),截至本文写作时,世界上共有7097种语言。 在开发算法时,应在多种语言上进行测试,尤其是那些具有不同语言特性的语言;与此相对,目前存在一种令人遗憾的趋势,即自然语言处理算法往往仅在英语上进行开发或测试(Bender,2019)。 即使算法的应用范围超出了英语,也往往集中于大型工业化国家的官方语言(如中文、西班牙语、日语、德语等),但我们不应将工具局限于这些少数语言。 此外,大多数语言本身也包含多种变体,通常由不同地区或不同社会群体使用。 因此,例如,如果我们处理的文本使用了非裔美国人英语(AAE)或非裔美国人白话英语(AAVE)的特征——这是数百万非裔美国人社区成员使用的英语变体(King,2020),我们就必须使用能够适应这些语言变体特征的自然语言处理工具。 推文(Twitter posts)中可能包含非裔美国人英语的常见表达,例如 iont(相当于主流美国英语(MAE)中的 I don’t),或 talmbout(对应于 MAE 的 talking about),这两个例子都会影响词语切分(Blodgett 等,2016;Jones,2015)。
在一次交际行为中混合使用多种语言的现象也十分普遍,这种现象被称为语码转换(code switching)。 语码转换在全球范围内极为常见;以下是包含西班牙语和(音译的)印地语与英语混合使用的例子(Solorio 等,2014;Jurgens 等,2017):
(2.13) Por primera vez veo a @username actually being hateful! it was beautiful:)
[For the first time I get to see @username actually being hateful! it was beautiful:)](2.20) dost tha or ra- hega … dont wory … but dherya rakhe
[“he was and will remain a friend … don’t worry … but have faith”]
另一个变异维度是体裁(genre)。 我们的算法需要处理的文本可能来自新闻通讯、小说或非小说类书籍、科学论文、维基百科或宗教文本。 也可能来自口语体裁,如电话对话、商务会议、警察随身摄像头录音、医疗访谈,或电视节目和电影的转录文本。 还可能来自工作场景,如医生笔记、法律文本,或议会或国会的会议记录。
文本也反映了作者(或说话者)的人口统计学特征:他们的年龄、性别、种族、社会经济阶层都会影响我们所处理文本的语言特性。
最后,时间也同样重要。 语言随时间而演变,对于某些语言,我们拥有来自不同历史时期的优质语料库。
由于语言具有如此强的语境依赖性,因此在基于语料库开发语言处理的计算模型时,必须考虑语言是由谁产生的、在何种情境下产生的、以及出于何种目的。 那么,数据集的使用者如何获知所有这些细节? 最佳方式是语料库创建者为每个语料库构建一份数据表(datasheet)(Gebru 等,2020)或数据声明(data statement)(Bender 等,2021)。 数据表需明确说明数据集的以下属性:
动机(Motivation):语料库为何被收集?由谁收集?谁资助了该项目?
情境(Situation):文本是在何时、何种情境下被书写或说出的?例如,是否存在特定任务?语言最初是口语对话、经过编辑的文本、社交媒体交流,还是独白与对话?
语言变体(Language variety):语料库使用的是何种语言(包括方言/地区)?
说话者人口统计学信息(Speaker demographics):文本作者的年龄、性别等信息是什么?
收集过程(Collection process):数据规模有多大?如果是子样本,是如何抽样的?数据收集是否获得了知情同意?数据经过了哪些预处理?提供了哪些元数据?
标注过程(Annotation process):标注内容是什么?标注人员的人口统计学特征如何?他们接受了何种培训?数据是如何被标注的?
分发(Distribution):是否存在版权或其他知识产权限制?