第16章文本到语音

“文字的意义远不止于纸面上所写下的内容。唯有通过人的声音，才能为其注入更深层的意蕴。”
——玛雅·安杰卢，《我知道笼中鸟为何歌唱》

将文本转换为语音的任务，其历史甚至比语音识别还要悠久。 1769年，在维也纳，沃尔夫冈·冯·肯佩伦为玛丽亚·特蕾莎女皇制造了著名的“机械土耳其人”。那是一个下棋的自动装置，由一个装满齿轮的木箱构成，箱后坐着一个机器人偶，能用机械手臂移动棋子下棋。 “机械土耳其人”在欧洲和美洲巡展数十年，曾击败拿破仑·波拿巴，甚至还与查尔斯·巴贝奇对弈过。若非后来被揭穿——原来箱内藏有一名真人棋手操控——它或许会被视为人工智能早期的一大成功案例。

较少为人所知的是，冯·肯佩伦还是一位极其多产的发明家。他在1769年至1790年间，建造了一台绝非骗局的装置：世界上第一台能合成完整句子的语音合成器（部分结构见右图）。该装置包含一个风箱，用于模拟肺部；一个橡胶制的口模和鼻孔开口；一片簧片，用来模拟声带；若干哨子，用于生成擦音；还有一个小型辅助风箱，专门提供爆破音所需的气流。操作者双手操纵杠杆，控制各处开口的开合，并调节柔性皮革制成的“声道”，从而发出不同的辅音和元音。

两个多世纪之后，我们不再用木材和皮革来构建语音合成器，也不再需要人工操作。现代的文本到语音（Text-to-Speech，简称 TTS），也称语音合成，其任务正好与自动语音识别（ASR）相反：它将文本：

It's time for lunch!

映射为一段声学波形：

TTS 拥有广泛的应用场景。它被用于与人类交互的口语语言系统，用于朗读文本，用于游戏配音，也用于为神经系统疾病患者生成语音。例如，已故天体物理学家斯蒂芬·霍金因罹患肌萎缩侧索硬化症（ALS）而失去发声能力后，就依靠TTS系统进行交流。

本章将介绍一种TTS算法。与上一章所述的ASR算法类似，这种算法也是在海量语音数据集上训练而成的。我们还将简要介绍其他一些语音应用。