12.1 语言差异与类型学

世界上大约有7000种语言。人类语言的某些方面似乎是普遍的，适用于所有这些语言，或者可以说是统计上的普遍性，适用于大多数语言。许多普遍性源于语言作为人类交流系统的功能性角色。例如，每一种语言似乎都有指代“人”的词汇，有关于吃和喝的表达，以及表示礼貌或不礼貌的方式。还有结构上的语言普遍性；例如，每一种语言似乎都有名词和动词（第 17 章），都有提问的方法，或者发出命令，并且有语言机制来表示同意或不同意。

然而，语言在很多方面也存在差异（这一点自古以来就被指出；见图 12.1）。理解是什么导致了这些翻译差异（Dorr, 1994）可以帮助我们构建更好的机器翻译模型。我们通常区分两类差异。一类是独特性和词汇层面的差异，必须逐个处理。例如，“狗”这个词在不同语言中的说法差异极大。另一类是系统性差异，可以用统一的方式建模。例如，许多语言把动词放在语法宾语之前，而另一些语言则把动词放在语法宾语之后。研究这些系统性的跨语言相似性和差异的学科被称为语言类型学（linguistic typology）。本节简要介绍一些影响机器翻译的语言类型特征；感兴趣的读者可以查阅《世界语言结构地图集》（World Atlas of Language Structures, Dryer and Haspelmath, 2013），该书汇总了大量跨语言的结构规律。

图12.1 巴别塔，彼得·勃鲁盖尔于1563年创作。来自维基共享资源，维也纳艺术史博物馆收藏。

12.1.1 词序类型学

正如我们在前面英语与日语的对比示例中所暗示的那样，不同语言在简单陈述句中动词、主语和宾语的基本词序上存在差异。例如，德语、法语、英语和汉语普通话都属于 SVO（主-动-宾）语言，这意味着动词通常位于主语和宾语之间。相比之下，印地语和日语是 SOV 语言，即动词通常出现在基本小句的末尾；而爱尔兰语和阿拉伯语则是 VSO 语言。两种具有相同基本词序类型的语言，往往在其他方面也表现出相似性。例如，VO 型语言通常使用前置词（prepositions），而 OV 型语言则通常使用后置词（postpositions）。

让我们更详细地看看前面提到的例子。在下面这个 SVO 的英语句子中，动词 wrote 后接其宾语 a letter，以及介词短语 to a friend。在这个介词短语中，前置词 to 后接其论元（argument，即动词所作用的核心成分） a friend。阿拉伯语采用 VSO 语序，同样将动词置于宾语之前，并使用前置词。相比之下，在下面的日语例子中，这些顺序全部反转：动词前接其论元，而后置词则后接其论元。

(12.3) English: He wrote a letter to a friend
       Japanese: tomodachi ni tegami-o kaita
                 friend    to letter   wrote
       Arabic:   katabt risāla li ṡadq
                 wrote  letter to friend

其他类型的词序偏好则因语言而异，呈现出独特性。在一些 SVO 语言（如英语和汉语）中，形容词通常出现在名词之前；而在另一些语言（如西班牙语和现代希伯来语）中，形容词则出现在名词之后：

(12.4) 西班牙语 bruja verde　　　英语 green witch

图 12.2 其他词序差异的示例：(a) 在德语中，某些副词出现在句首位置，而在英语中这些副词放在后面更自然；此外，限定动词通常占据第二位置。 (b) 在汉语中，表示目标的介词短语常常出现在动词之前，这与英语不同。

图 12.2 展示了更多词序差异的例子。所有这些语言之间的词序差异都会给翻译带来挑战，要求系统在生成译文时进行大规模的结构重排。

12.1.2 词汇差异

当然，我们还需要将一种语言中的单个词语翻译成另一种语言。在任何翻译中，合适的译词都可能因上下文而异。例如，英语源词 bass 在西班牙语中可能译为表示鱼的 lubina，也可能译为表示乐器的 bajo。德语对英语中统称为 wall（墙）的概念使用两个不同的词：Wand 指建筑物内部的墙，而 Mauer 指建筑物外部的墙。英语用 brother 泛指任何男性兄弟，但汉语以及许多其他语言则对“哥哥”和“弟弟”使用不同的词（普通话分别为 gege 和 didi）。在所有这些情况下，将英语的 bass、wall 或 brother 翻译出去都需要某种精细化处理——即对一个词的不同用法进行消歧。正因如此，机器翻译（MT）领域与词义消歧（Word Sense Disambiguation，见附录 G）密切相关。

有时，一种语言对词语选择施加的语法约束比另一种语言更多。例如，前文提到，英语通过单复数形式标记名词，而普通话则没有这种区分。又如，法语和西班牙语会在形容词上标记语法性别，因此将英语翻译成法语时，必须明确形容词的性别。

语言在词汇层面如何切分概念空间，其差异可能比简单的“一对多”翻译问题更为复杂，甚至导致“多对多”的映射关系。例如，图 12.3 总结了 Hutchins 和 Somers（1992）所讨论的将英语词 leg（腿）、foot（脚）和 paw（爪子）翻译成法语时的一些复杂情况。当 leg 指动物的腿时，法语译为 patte；当 leg 指一段旅程时，译为 étape；当 leg 指椅子的腿时，则用 pied。

此外，一种语言可能存在词汇空缺（lexical gap）——即除非借助解释性脚注，否则无法找到一个词或短语来精确表达另一种语言中某个词的含义。例如，英语中没有一个词能准确对应普通话的 xiào（孝）或日语的 oyakōkō（親孝行）。英语只能勉强使用诸如 filial piety（孝顺）、loving child（孝顺的孩子），或笼统地说 good son/daughter（好儿子/好女儿）等笨拙表达。

图 12.3 英语 leg、foot 等词与多种法语译法之间的复杂对应关系（据 Hutchins 和 Somers, 1992）。

最后，不同语言在如何将事件的概念属性映射到具体词汇上也存在系统性差异。 Talmy（1985, 1991）指出，语言可根据“运动方向”（direction of motion）和“运动方式”（manner of motion）是在动词上标记，还是在“卫星成分”（satellites）——如小品词、介词短语或副词短语——上标记，来进行分类。例如，描述“一个瓶子从洞穴中漂出”这一场景时：英语将方向标记在小品词 out 上；而西班牙语则将方向标记在动词上：

(12.5) English: The bottle floated out.
       Spanish: La  botella salió  flotando.
                The bottle  exited floating.

动词框架语言（verb-framed languages）将运动方向编码在动词中（而将运动方式留给卫星成分表达），例如西班牙语的 acercarse（靠近）、alcanzar（到达）、entrar（进入）、salir（出去）。 卫星框架语言（satellite-framed languages）则将运动方向编码在卫星成分中（而将运动方式留给动词表达），例如英语的 crawl out（爬出）、float off（漂走）、jump down（跳下）、run after（追赶）。属于动词框架的语言包括日语、泰米尔语，以及罗曼语族、闪含语系和玛雅语系的众多语言；而汉语，以及非罗曼语族的印欧语言（如英语、瑞典语、俄语、印地语和波斯语）则属于卫星框架语言（Talmy 1991；Slobin 1996）。

12.1.3 形态类型学

从形态学（morphology）角度看，语言通常沿两个维度进行分类。第一个维度是每个词所包含的语素数量（number of morphemes per word）。这一维度的一端是孤立型语言（isolating languages），如越南语和粤语，其中每个词通常只包含一个语素；另一端则是多式综合型语言（polysynthetic languages），如西伯利亚尤皮克语（“爱斯基摩语”），其单个词可能包含大量语素，相当于英语中的一个完整句子。第二个维度是语素是否可清晰切分（segmentable）。这一维度的一端是黏着型语言（agglutinative languages），如土耳其语，其语素边界相对清晰；另一端是融合型语言（fusional languages），如俄语，其中单个词缀可能融合多个语法意义。例如，俄语词 stolom（桌子-单数-工具格-第一变格类）中的后缀 -om 同时融合了工具格、单数和第一变格类这三个不同的形态范畴。

在形态丰富的语言之间进行翻译，需要处理词以下层级的结构。正因如此，现代系统通常采用子词模型（subword models），例如第 12.2.1 节所述的 WordPiece 或 BPE（字节对编码）模型。

12.1.4 指称密度

最后，语言在一种与省略倾向相关的类型学维度上也存在差异。有些语言（如英语）要求在话语中提及已知指称对象时必须使用显式的代词。但在另一些语言中，代词有时可以完全省略。以下西班牙语例句即展示了这一点¹：

(12.6)
[El jefe]ᵢ dio con un libro. 0ᵢ Mostró su hallazgo a un descifrador ambulante.
[The boss] came upon a book. [He] showed his ﬁnd to a wandering decoder.

能够省略代词的语言被称为代词脱落语言（pro-drop languages）。即便在代词脱落语言内部，省略的频率也存在显著差异。例如，日语和汉语的省略程度远高于西班牙语。这种跨语言的差异维度被称为指称密度（referential density）。我们说，倾向于使用更多代词的语言具有更高的指称密度（referentially dense），而使用更多零形式（即省略）的语言则指称密度较低。像汉语或日语这样指称稀疏（referentially sparse）的语言，要求听者通过更多推理来还原先行词，这类语言也被称为冷语言（cold languages）。相反，那些表达更明确、使听者更容易理解的语言则被称为热语言（hot languages）。 “热”与“冷”的术语借自马歇尔·麦克卢汉（Marshall McLuhan）1964 年提出的媒介理论：热媒介（如电影）为观众提供了大量细节；冷媒介（如漫画）则要求读者通过推理来补全信息（Bickel, 2003）。

将汉语或日语等高度代词脱落的语言翻译成英语等非代词脱落语言时，往往颇具挑战，因为模型必须设法识别每一个零形式（省略位置），并推断出当前谈论的是谁或什么，才能插入正确的代词。

此处我们使用“0-标记法”（0-notation）；我们将在第 23 章进一步介绍并讨论这一问题。 ↩︎

12.1.1 词序类型学#

12.1.2 词汇差异#

12.1.3 形态类型学#

12.1.4 指称密度#

12.1.1 词序类型学

12.1.2 词汇差异

12.1.3 形态类型学

12.1.4 指称密度