15.1 自动语音识别任务

在介绍ASR算法之前，我们先讨论一下ASR任务本身有哪些变化维度。第一个变化维度是词汇量大小。某些ASR任务早已能以极高的准确率完成。例如，只有两个词的词汇表（“yes”与“no”），或包含11个词的数字识别任务（识别从“zero”到“nine”以及“oh”的数字序列）。相比之下，开放式任务要困难得多。比如准确转录视频内容或人类对话，这类任务通常涉及6万甚至更多词汇，挑战性显著更高。

第二个变化维度是说话对象。人类对机器说话（无论是口述还是与对话系统交互）比人与人之间的对话更容易识别。 朗读语音（read speech）也相对容易处理。例如有声书中人们大声朗读的内容就属于此类。而识别会话语音（conversational speech）中两个人的交谈、转录商务会议内，则是最难的。似乎当人类对机器说话，或在没有听众的情况下朗读时，他们会显著简化自己的言语：语速更慢，发音更清晰。

第三个变化维度是信道与噪声环境。如果语音是在安静房间内通过头戴式麦克风录制的，就比在嘈杂的城市街道上用远距离麦克风录制，或在车窗打开的汽车内录制更容易识别。

最后一个变化维度是口音或说话人类别特征。如果说话人使用的方言或语言变体与系统训练所用数据一致，识别就更容易。如果系统仅在标准方言或成人说话人的数据上训练过，那么面对地区性或民族性方言使用者、儿童等群体的语音，识别难度就会大大增加。

为了研究这些变化，研究人员使用了多个公开可用的语料库。这些语料库包含人工制作的转录文本，常被用于构建ASR的测试集和训练集。以下列举几个常见语料库，你在文献中很可能会遇到它们。

LibriSpeech 是一个大型开源朗读语音数据集，采样率为16 kHz。它包含来自LibriVox项目的超过1000小时有声书音频，志愿者朗读并录制了无版权书籍（Panayotov 等，2015）。该数据集的转录文本已对齐到句子级别。它被划分为较易的“clean”部分和较难的“other”部分。 “clean”部分录音质量更高，口音更接近美式英语。这一划分是在语料库首次发布时完成的：研究人员用一个在《华尔街日报》朗读语音上训练的语音识别器处理全部音频，根据人工标注的参考转录计算每位说话人的词错误率（WER），再将说话人大致分为两组，低WER说话人的录音归为“clean”，高WER说话人的录音归为“other”。

Switchboard 语料库收集于1990年代初，包含陌生人之间按提示进行的电话对话。它共有 2430 段对话，平均每段6分钟，总计240小时8 kHz语音，约300万词（Godfrey 等，1992）。 Switchboard 的独特优势在于其海量的人工标注语言学信息，包括句法分析、对话行为标签、音素与韵律标注，以及话语结构和信息结构标注。

CALLHOME 语料库则收集于1990年代末，包含120段未经脚本设计的30分钟电话对话。对话双方通常是关系亲密的朋友或家人，均为英语母语者（Canavan 等，1997）。

多种语料库试图包含更自然的语音输入。CHiME 挑战赛是一系列困难的共享任务，处理 ASR 稳健可靠性。例如，CHiME-6 任务的目标是在真实家庭环境中识别会话语音（具体为晚餐聚会场景）。该语料库包含在 20 个真实家庭中录制的晚餐聚会音频，每次聚会 4 名参与者，在三个位置（厨房、餐厅、客厅）使用远场麦克风进行录音。

AMI 会议语料库包含 100 小时的小组会议录音（部分为自然发生的会议，部分为专门组织的会议），配有手工转录文本及部分额外人工标注（Renals 等，2007）。

CORAAL 是一个包含 150 多段社会语言学访谈的语料库，访谈对象为非裔美国人，旨在研究非裔美国英语（AAE），即非裔美国人社群及其他群体所使用的多种语言变体（Kendall 与 Farrington，2020）。这些访谈已做匿名处理，转录文本对齐到话语（utterance）级别。

其他语言也有大量可用语料库。以中文为例，HKUST 普通话电话语音语料库包含 1206 段经转录的十分钟普通话电话对话，说话人来自中国各地，包括朋友之间和陌生人之间的交谈（Liu 等，2006）。 AISHELL-1 语料库则包含 170 小时的普通话朗读语音，句子取自多个领域，由主要来自中国北方的不同说话人朗读（Bu 等，2017）。

此外，还有许多多语言语料库。Common Voice（Ardila 等，2020）是一个免费开放的众包语料库，包含带转录的朗读语音，以 MPEG-3 格式存储，专为 ASR 设计。众包志愿者自行录制朗读脚本的语音，脚本通常摘自维基百科文章。随后，其他贡献者会对录音进行验证。截至本章撰写时，Common Voice 已涵盖 133 种语言，总计 33,150 小时语音。

FLEURS（Conneau 等，2023）是一个平行语音数据集，基于机器翻译基准 FLoRes-101（Goyal 等，2022）构建。该基准从英文维基百科中抽取 3001 个句子，并由人工译者翻译成另外 101 种语言。对于这 102 种语言中的每一种，FLEURS 都选取了其中 2009 个句子，并邀请 3 位不同母语者朗读每个句子。每种语言总计约 12 小时语音。

图 15.1 展示了截至本书撰写时，若干任务上大致达到当前最先进水平的系统所产生的错误词比例（即词错误率，WER，定义见第 355 页）。请注意，英语朗读语音（如LibriSpeech clean有声书语料库）的错误率约为2%，说明英语朗读语音的转录准确率已经非常高。相比之下，人与人之间对话的转录错误率更高：Switchboard 和 CALLHOME 语料库或 AMI 会议的错误率在 5.8% 至 11% 之间。对于非裔美国英语等语言变体的说话人，错误率进一步升高；而在更具挑战性的会话任务中（如四人晚餐聚会语音的转录），错误率甚至高达 25.5%。在中文任务中，自然对话的字错误率（CER）也明显高于朗读语音。对于资源较少的语言，错误率更高；表中列出了一些示例。

英语任务	WER %
LibriSpeech 有声书 960小时 clean	1.4
LibriSpeech 有声书 960小时 other	2.6
Switchboard 陌生人电话对话	5.8
CALLHOME 家人电话对话	11
AMI 会议	11
社会语言学访谈，CORAAL（AAE）	16.2
CHiME-6 远场麦克风录制的晚餐聚会	25.5
其他语言的示例任务	WER %
Common Voice 15 越南语	39.8
Common Voice 15 斯瓦希里语	51.2
FLEURS 孟加拉语	50
中文（普通话）任务	CER %
AISHELL-1 普通话朗读语音语料库	3.9
HKUST 普通话电话对话	18.5

图15.1 截至2023–2024年左右，各类美式英语及其他语言ASR任务报告的近似词错误率（WER = 识别错误的词所占百分比），以及两个中文识别任务的字错误率（CER）。