第15章自动语音识别

我不知是否
领会了你的意思：若真领会，
它便浮于你声音的字词涟漪之上，
如同溪流中黄昏的淡淡倒影。
托马斯·洛弗尔·贝多斯，1851年

理解口语，或至少将其中的词语转写为文字，是计算机语言处理最早的目标之一。事实上，语音处理的历史比计算机还要早几十年！最早的语音识别机器出现在 20 世纪 20 年代，那是一个玩具。右侧所示的“Radio Rex”是一只赛璐珞制成的狗。当接收到约500 Hz的声能时，它内部的弹簧会被释放，从而驱动狗移动。由于 500 Hz 大致对应“Rex”一词中元音[eh]的第一共振峰，因此这只狗似乎真的会在被叫到名字时出现（David, Jr. 与 Selfridge，1962）。

在现代，我们对自动系统提出了更高要求。 自动语音识别（ASR）的任务，就是将如下这样的声波：

映射为对应的词串：

It's time for lunch!

目前，要实现任意说话人、在任意环境下都能准确转录语音，这一目标仍远未达成。但ASR技术已经发展成熟，足以胜任许多实际任务。语音是一种自然的人机交互方式，特别适用于操控家电，或与数字助理、聊天机器人交流。在手机等设备上尤其如此，因为键盘输入往往不够便捷。 ASR也广泛用于通用转录场景，例如自动生成音视频内容的字幕（如电影、视频或实时讨论的转录）。在法律等领域，口述转录具有重要作用。此外，ASR还是增强型通信的关键组成部分。这类通信指计算机与存在某些障碍的人类用户之间的互动——这些障碍可能导致用户难以或无法打字，或存在听觉困难。失明的弥尔顿曾口述《失乐园》由女儿记录；亨利·詹姆斯则因重复性劳损，在后期改用口述创作小说。

接下来几节将介绍ASR任务的不同目标，说明如何提取声学特征，并引入卷积神经网络架构。该架构常被用作语音识别任务的初始层。

随后，我们将介绍两类ASR方法。第一类是编码器-解码器范式。我们会介绍基于注意力机制的基础编码器-解码器算法，早期实现常被称为“Listen Attend and Spell”。我们还会介绍一种更先进的编码器-解码器系统——OpenAI 的 Whisper 系统（Radford 等，2023），以及一个采用相同架构的开源系统 OWSM（Open Whisper-style Speech Model）（Peng 等，2023）。（这些模型还具备翻译等额外能力，后文将详述。）第二类方法利用自监督语音模型（有时缩写为 SSL，即自监督学习），例如 Wav2Vec2.0或 HuBERT。这些模型作为编码器，能够学习语音的抽象表示。通过与 CTC（连接时序分类）损失函数结合用于解码，即可完成 ASR 任务。

最后，我们将介绍评估ASR性能的标准指标——词错误率（word error rate）。