TTS 系统通常通过人工评估进行评测:向听者播放一段合成语音,并请他们给出平均意见得分(Mean Opinion Score,简称 MOS)——即对合成语音质量的评分,通常采用 1 到 5 分的等级制。 随后,我们可以通过比较不同系统在相同句子上的 MOS 得分来评估其性能优劣(例如,使用配对 t 检验来判断差异是否具有统计显著性)。

如果仅需比较两个系统(例如,验证某项修改是否真正提升了系统性能),还可以采用 CMOS(Comparative MOS,比较式 MOS)方法。在此方法中,用户需对两个合成语音片段进行偏好选择,判断哪一个更好。 CMOS 评分范围为 -3 到 +3:-3 表示当前系统明显劣于参考系统,+3 表示明显优于参考系统。 具体操作时,我们会将同一句话分别用两个系统合成,播放给听者,由他们选择更偏好的版本。 通常会对约 50 个句子(以随机顺序呈现)重复此过程,再统计每个系统被偏好的句子数量并进行比较。

尽管语音合成系统最可靠的评估方式是人工听测,但某些自动指标也可提供补充信息。 例如,我们可以将 TTS 输出送入一个自动语音识别(ASR)系统,计算词错误率(WER),以衡量合成语音的可懂度或可靠性。 又如,在评估 TTS 系统生成的语音与注册说话人语音的相似度时,可将该任务视为说话人验证问题:将目标语音和注册语音输入一个说话人验证系统,并利用其输出的相似度得分作为音色匹配程度的量化指标。