在介绍ASR算法之前,我们先讨论一下ASR任务本身有哪些变化维度。 第一个变化维度是词汇量大小。某些ASR任务早已能以极高的准确率完成。 例如,只有两个词的词汇表(“yes”与“no”),或包含11个词的数字识别任务(识别从“zero”到“nine”以及“oh”的数字序列)。 相比之下,开放式任务要困难得多。比如准确转录视频内容或人类对话,这类任务通常涉及6万甚至更多词汇,挑战性显著更高。

第二个变化维度是说话对象。 人类对机器说话(无论是口述还是与对话系统交互)比人与人之间的对话更容易识别。 朗读语音(read speech)也相对容易处理。例如有声书中人们大声朗读的内容就属于此类。 而识别会话语音(conversational speech)中两个人的交谈、转录商务会议内,则是最难的。 似乎当人类对机器说话,或在没有听众的情况下朗读时,他们会显著简化自己的言语:语速更慢,发音更清晰。

第三个变化维度是信道与噪声环境。如 果语音是在安静房间内通过头戴式麦克风录制的,就比在嘈杂的城市街道上用远距离麦克风录制,或在车窗打开的汽车内录制更容易识别。

最后一个变化维度是口音或说话人类别特征。 如果说话人使用的方言或语言变体与系统训练所用数据一致,识别就更容易。 如果系统仅在标准方言或成人说话人的数据上训练过,那么面对地区性或民族性方言使用者、儿童等群体的语音,识别难度就会大大增加。

为了研究这些变化,研究人员使用了多个公开可用的语料库。这些语料库包含人工制作的转录文本,常被用于构建ASR的测试集和训练集。 以下列举几个常见语料库,你在文献中很可能会遇到它们。

LibriSpeech 是一个大型开源朗读语音数据集,采样率为16 kHz。它包含来自LibriVox项目的超过1000小时有声书音频,志愿者朗读并录制了无版权书籍(Panayotov 等,2015)。 该数据集的转录文本已对齐到句子级别。 它被划分为较易的“clean”部分和较难的“other”部分。 “clean”部分录音质量更高,口音更接近美式英语。 这一划分是在语料库首次发布时完成的:研究人员用一个在《华尔街日报》朗读语音上训练的语音识别器处理全部音频,根据人工标注的参考转录计算每位说话人的词错误率(WER),再将说话人大致分为两组,低WER说话人的录音归为“clean”,高WER说话人的录音归为“other”。

Switchboard 语料库收集于1990年代初,包含陌生人之间按提示进行的电话对话。 它共有 2430 段对话,平均每段6分钟,总计240小时8 kHz语音,约300万词(Godfrey 等,1992)。 Switchboard 的独特优势在于其海量的人工标注语言学信息,包括句法分析、对话行为标签、音素与韵律标注,以及话语结构和信息结构标注。

CALLHOME 语料库则收集于1990年代末,包含120段未经脚本设计的30分钟电话对话。对话双方通常是关系亲密的朋友或家人,均为英语母语者(Canavan 等,1997)。

多种语料库试图包含更自然的语音输入。CHiME 挑战赛是一系列困难的共享任务,处理 ASR 稳健可靠性。 例如,CHiME-6 任务的目标是在真实家庭环境中识别会话语音(具体为晚餐聚会场景)。 该语料库包含在 20 个真实家庭中录制的晚餐聚会音频,每次聚会 4 名参与者,在三个位置(厨房、餐厅、客厅)使用远场麦克风进行录音。

AMI 会议语料库包含 100 小时的小组会议录音(部分为自然发生的会议,部分为专门组织的会议),配有手工转录文本及部分额外人工标注(Renals 等,2007)。

CORAAL 是一个包含 150 多段社会语言学访谈的语料库,访谈对象为非裔美国人,旨在研究非裔美国英语(AAE),即非裔美国人社群及其他群体所使用的多种语言变体(Kendall 与 Farrington,2020)。 这些访谈已做匿名处理,转录文本对齐到话语(utterance)级别。

其他语言也有大量可用语料库。 以中文为例,HKUST 普通话电话语音语料库包含 1206 段经转录的十分钟普通话电话对话,说话人来自中国各地,包括朋友之间和陌生人之间的交谈(Liu 等,2006)。 AISHELL-1 语料库则包含 170 小时的普通话朗读语音,句子取自多个领域,由主要来自中国北方的不同说话人朗读(Bu 等,2017)。

此外,还有许多多语言语料库。Common Voice(Ardila 等,2020)是一个免费开放的众包语料库,包含带转录的朗读语音,以 MPEG-3 格式存储,专为 ASR 设计。 众包志愿者自行录制朗读脚本的语音,脚本通常摘自维基百科文章。 随后,其他贡献者会对录音进行验证。 截至本章撰写时,Common Voice 已涵盖 133 种语言,总计 33,150 小时语音。

FLEURS(Conneau 等,2023)是一个平行语音数据集,基于机器翻译基准 FLoRes-101(Goyal 等,2022)构建。该基准从英文维基百科中抽取 3001 个句子,并由人工译者翻译成另外 101 种语言。 对于这 102 种语言中的每一种,FLEURS 都选取了其中 2009 个句子,并邀请 3 位不同母语者朗读每个句子。每种语言总计约 12 小时语音。

图 15.1 展示了截至本书撰写时,若干任务上大致达到当前最先进水平的系统所产生的错误词比例(即词错误率WER,定义见第 355 页)。 请注意,英语朗读语音(如LibriSpeech clean有声书语料库)的错误率约为2%,说明英语朗读语音的转录准确率已经非常高。 相比之下,人与人之间对话的转录错误率更高:Switchboard 和 CALLHOME 语料库或 AMI 会议的错误率在 5.8% 至 11% 之间。 对于非裔美国英语等语言变体的说话人,错误率进一步升高;而在更具挑战性的会话任务中(如四人晚餐聚会语音的转录),错误率甚至高达 25.5%。 在中文任务中,自然对话的字错误率CER)也明显高于朗读语音。 对于资源较少的语言,错误率更高;表中列出了一些示例。

英语任务WER %
LibriSpeech 有声书 960小时 clean1.4
LibriSpeech 有声书 960小时 other2.6
Switchboard 陌生人电话对话5.8
CALLHOME 家人电话对话11
AMI 会议11
社会语言学访谈,CORAAL(AAE)16.2
CHiME-6 远场麦克风录制的晚餐聚会25.5
其他语言的示例任务WER %
Common Voice 15 越南语39.8
Common Voice 15 斯瓦希里语51.2
FLEURS 孟加拉语50
中文(普通话)任务CER %
AISHELL-1 普通话朗读语音语料库3.9
HKUST 普通话电话对话18.5

图15.1 截至2023–2024年左右,各类美式英语及其他语言ASR任务报告的近似词错误率(WER = 识别错误的词所占百分比),以及两个中文识别任务的字错误率(CER)。