16.4 TTS 评估

TTS 系统通常通过人工评估进行评测：向听者播放一段合成语音，并请他们给出平均意见得分（Mean Opinion Score，简称 MOS）——即对合成语音质量的评分，通常采用 1 到 5 分的等级制。随后，我们可以通过比较不同系统在相同句子上的 MOS 得分来评估其性能优劣（例如，使用配对 t 检验来判断差异是否具有统计显著性）。

如果仅需比较两个系统（例如，验证某项修改是否真正提升了系统性能），还可以采用 CMOS（Comparative MOS，比较式 MOS）方法。在此方法中，用户需对两个合成语音片段进行偏好选择，判断哪一个更好。 CMOS 评分范围为 -3 到 +3：-3 表示当前系统明显劣于参考系统，+3 表示明显优于参考系统。具体操作时，我们会将同一句话分别用两个系统合成，播放给听者，由他们选择更偏好的版本。通常会对约 50 个句子（以随机顺序呈现）重复此过程，再统计每个系统被偏好的句子数量并进行比较。

尽管语音合成系统最可靠的评估方式是人工听测，但某些自动指标也可提供补充信息。例如，我们可以将 TTS 输出送入一个自动语音识别（ASR）系统，计算词错误率（WER），以衡量合成语音的可懂度或可靠性。又如，在评估 TTS 系统生成的语音与注册说话人语音的相似度时，可将该任务视为说话人验证问题：将目标语音和注册语音输入一个说话人验证系统，并利用其输出的相似度得分作为音色匹配程度的量化指标。