对于某些语言(尤其是英语),在线资源非常丰富。 存在大量包含英语与其他语言互译的平行语料库。 然而,世界上绝大多数语言并没有充足的平行训练文本可用。 如何在资源匮乏的语言上实现高质量翻译,是当前一个重要的持续研究课题。 即使对于高资源语言,当我们需要将其翻译到低资源领域(例如某个恰好缺乏双语语料的特定文体或专业领域)时,也会面临类似的资源短缺问题。
在此,我们简要介绍两种应对数据稀疏性的常用方法:回译(backtranslation)——这是通用统计技术数据增强(data augmentation)的一种特例;以及多语言模型(multilingual models)。此外,我们还将讨论一些相关的社会技术问题。
12.5.1 数据增强
数据增强是一种用于缓解训练数据不足的统计技术,其核心思想是从现有的自然数据出发,生成新的合成数据以扩充训练集。
在机器翻译中,最常用的数据增强技术称为回译(backtranslation)。 回译的核心思想是,尽管特定语言对或特定领域的平行语料可能十分有限,但我们通常能找到规模更大(或至少相对更多)的单语语料(monolingual corpus),可用于补充现有的小型平行语料。 该方法利用目标语言的单语语料来构建合成的双语句对(bitext)。
在回译中,我们的目标是提升从源语言到目标语言的翻译性能。假设我们拥有少量源语言–目标语言的平行语料(即双语句对),以及一些目标语言的单语数据。 首先,我们利用这少量平行语料训练一个反向的机器翻译系统——即从目标语言到源语言的翻译模型。 接着,我们用这个反向模型将目标语言的单语数据翻译成源语言。 这样,我们就得到了一组合成的双语句对(天然的目标语言句子 + 由机器翻译生成的源语言句子),可将其加入原始训练数据中,重新训练我们的源→目标翻译模型。 例如,假设我们希望将纳瓦霍语(Navajo)翻译成英语,但仅有少量纳瓦霍语–英语平行语料;不过,我们可以轻松获取大量英语单语数据。 此时,我们先用那少量平行语料训练一个英语→纳瓦霍语的翻译引擎,再用它将英语单语文本翻译成纳瓦霍语。 由此生成的合成纳瓦霍语/英语双语句对即可加入训练集,用于改进最终的纳瓦霍语→英语翻译系统。
回译涉及若干可调参数。其一是如何生成回译数据:可以使用贪心解码、束搜索,也可以采用采样方法(如第 8 章介绍的温度采样)。 其二是回译数据与原始平行语料的比例:我们可以选择对原始平行句对进行上采样(即多次重复使用同一句对)。 总体而言,回译的效果出人意料地好;有研究估计,使用回译数据训练的系统所能获得的性能提升,大约相当于使用同等数量真实平行语料所能获得提升的三分之二(Edunov et al., 2018)。
12.5.2 多语言模型
到目前为止,我们所描述的模型都是用于双语翻译:一种源语言,一种目标语言。但也可以构建多语言翻译器(multilingual translator)。
在多语言翻译器中,我们通过提供多种不同语言对的平行句对来训练系统。 这意味着我们必须明确告诉系统从哪种语言翻译、翻译成哪种语言! 我们通过在编码器输入中添加一个特殊的源语言标识符 \(l_s\) 来指明当前翻译的源语言,并在解码器端添加一个特殊的目标语言标识符 \(l_t\) 来指定期望的输出语言。
因此,我们可以对前文的公式 (12.9) 稍作修改,在公式 (12.18)–(12.19) 中加入这些语言标识符:
$$ \begin{align*} \mathbf{h} &= \text{encoder}(x, l_s) \tag{12.18} \\ y_{i+1} &= \text{decoder}(\mathbf{h}, l_t, y_1, \dots, y_i) \quad \forall i \in [1, \dots, m] \tag{12.19} \end{align*} $$多语言模型的一大优势在于,它可以通过利用训练数据中资源更丰富的相似语言的信息,来提升低资源语言的翻译质量。 例如,我们可能不知道加利西亚语(Galician)中某个词的确切含义,但如果该词在资源更丰富且语言相近的西班牙语中出现过,模型就可能借助这种跨语言共享的知识进行更准确的翻译。
12.5.3 社会技术问题
处理低资源语言所面临的许多挑战远不止技术层面。一个突出的问题是:对于许多低资源语言(尤其是来自低收入国家的语言),母语者往往未能充分参与内容筛选、语言技术研发或系统性能评估等关键环节(∀ et al., 2020)。事实上,一项著名的研究对大量平行语料库及其他主流多语言数据集进行了人工审核,发现其中许多语料库中不到 50% 的句子质量达标——大量数据充斥着重复内容、网页模板文本或错误翻译,这表明母语者可能并未深度参与数据构建过程(Kreutzer et al., 2022)。
另一类问题涉及资源分配的不平衡。例如,许多机器翻译方法倾向于只关注“其中一种语言是英语”的场景(Anastasopoulos and Neubig, 2020)。过去大多数大型多语言系统都基于以英语为中心的双语语料进行训练。不过,近期一些大型企业级系统(如 Fan et al., 2021;Costa-jussà et al., 2022)以及数据集(如 Schwenk et al., 2021)正试图突破这一局限,支持多达 200 种语言,并构建非英语中介的多语言对之间的直接双语语料,而不再仅依赖英语作为枢纽语言。
在更小规模的实践中,∀ et al.(2020)提出了一种参与式设计流程(participatory design process),鼓励低资源语言的内容创作者、数据管理者和语言技术专家积极参与机器翻译算法的开发。他们提供了在线社群、导师指导和技术基础设施,并报告了一个为非洲低资源语言开发 MT 系统的案例研究。他们的结论之一是:应采用译后编辑(post-editing)而非直接评分来进行 MT 评估。因为让标注人员对机器翻译结果进行编辑,再衡量原始输出与编辑后版本之间的差异,不仅更容易培训评估人员,也能更准确地捕捉 MT 系统的真实错误,而非因语言表达多样性导致的合理差异(Bentivogli et al., 2018)。