我们先介绍一些关于词义的基本原则。 该如何表示一个词的意义呢? 在第3章的 n-gram 模型以及传统的自然语言处理应用中,我们对一个词的唯一表示,就是一串字母,或者词汇表中的一个索引。 这种表示方式,其实和哲学中的一种传统做法差别不大——也许你在入门逻辑课上见过:直接用小型大写字母拼出这个词,来代表它的意义。 比如,“dog”的意义写作 DOG,“cat”写作 CAT,有时还会加一个撇号,写成 DOG’。

但把词义简单地用大写形式表示,显然不是一个令人满意的模型。 你可能听说过语义学家芭芭拉·帕蒂(Barbara Partee)讲过的一个笑话(Carlson, 1977):

问:生命的意义是什么?
答:LIFE’

我们当然可以做得更好! 毕竟,我们希望词义模型能帮我们完成各种任务。 它应该能告诉我们,有些词意义相近(比如 catdog);有些词互为反义(比如 coldhot 相反);有些带有正面情感色彩(如 happy),有些则带有负面色彩(如 sad)。 它还应能体现这样一种事实:buy(买)、sell(卖)和 pay(付)这三个词,其实描述的是同一个购买事件的不同视角。 (如果我从你那里买了东西,你很可能就把它卖给了我,而我也很可能付了钱给你。) 更一般地说,一个词义模型应当支持我们进行推理,从而完成与意义相关的任务,比如问答或对话。

本节将简要总结这些理想特性。它们源自语言学中对词义的研究,这一领域称为词汇语义(lexical semantics)。我们将在附录 G 和第 21 章中再次回到这个话题,并进一步扩展这份清单。

词元与词义

我们先看一个例子:同一个词(比如 mouse)在词典中可能有多种定义(以下内容简化自在线词典 WordNet):

mouse(名词)

  1. 多种小型啮齿动物之一……
  2. 一种手动操作的设备,用于控制光标……

这里的 mouse 形式称为词元(lemma),也叫引述形式(citation form)。 mice 的词元同样是 mouse;词典通常不会为 mice 这样的屈折形式单独设条目。 类似地,singsingsangsung 的词元。 在许多语言中,动词以不定式作为词元。 例如,西班牙语中表示“睡觉”的不定式 dormir,就是duermes(“你睡觉”)的词元。 像 sungcarpetssingduermes 这些具体形式,统称为词形(wordforms)。

如上例所示,一个词元可以对应多个含义。 mouse 既可以指啮齿动物,也可以指光标控制设备。 我们将 mouse 的每一种含义称为一个词义(word sense)。 词元常常具有多义性(polysemous),即包含多个词义。这会给理解带来困难。 例如,有人在搜索引擎中输入 “mouse info”,他想找的是宠物,还是电脑配件? 第 10 章和附录 G 将讨论多义性问题,并介绍词义消歧(word sense disambiguation),即在特定上下文中判断某个词使用的是哪种词义的任务。

同义关系

词义的一个重要组成部分,是不同词义之间的关系。 当一个词的某个词义与另一个词的某个词义完全相同或几乎相同时,我们就说这两个词义互为同义词(synonyms)。 常见的同义词对包括:

  • couch/sofa(沙发)
  • vomit/throw up(呕吐)
  • filbert/hazelnut(榛子)
  • car/automobile(汽车)

同义关系更正式的定义(针对词而非词义)是:如果两个词在任何句子中可以互相替换,且不改变该句子的真值条件(truth conditions)——即不改变句子为真的情境——那么它们就是同义词。

然而,即使像 car / automobilewater / H₂O 这样的词对,在替换后能保持句子真值不变,它们的意义也并非完全相同。 事实上,可能根本不存在两个意义绝对相同的词。 语义学有一条基本原则,称为对比原则(principle of contrast)(Girard 1718;Bréal 1897;Clark 1987)。该原则认为:语言形式上的差异总是伴随着某种意义上的差异。 例如,$H_2O$ 用于科学语境,在徒步旅行指南中使用它就不合适——此时用 water 更恰当,而这种文体上的差异正是词义的一部分。 因此在实践中,“同义词”一词通常用来描述一种近似或大致的同义关系。

词语相似性

尽管词语并没有太多同义词,但大多数词语都有许多相似的词。 cat(猫)并不是 dog(狗)的同义词,但“猫”和“狗”无疑是相似的词语。 当我们从“同义关系”转向“相似性”时,将讨论的重点从词义之间的关系(如同义)转移到词语之间的关系(如相似性)会更有用。 关注词语本身可以免于受制于词义的特定表示,这将有助于简化任务。

词语相似性的概念在更广泛的语义任务中非常有用。 了解两个词语的相似程度,有助于计算两个短语或句子在意义上的相似度,而这在问答、改写和摘要等任务中是一个至关重要的组成部分。 获取词语相似度数值的一种方法是请人类判断一个词与另一个词的相似程度。 这类实验已产生了一些数据集。 例如,SimLex-999 数据集(Hill 等,2015)给出了从 0 到 10 的评分,如下例所示,这些评分范围从近乎同义词(vanishdisappear)到几乎毫无共同点的词对(holeagreement):

词1词2相似度
vanishdisappear9.8
beliefimpression5.95
musclebone3.65
modestflexible0.98
holeagreement0.3

词语关联性

两个词的意义除了相似性之外,还可以通过其他方式相关联。 其中一类联系被称为词语关联性(word relatedness)(Budanitsky 和 Hirst, 2006),在心理学中传统上也称为词语联想(association)。

考虑 coffee(咖啡)和 cup(杯子)这两个词的含义。 coffeecup 并不相似;它们几乎没有任何共同的特征(咖啡是一种植物或饮品,而杯子是一种具有特定形状的人造物体)。 但 coffeecup 显然是相关的;它们通过共同参与一个日常事件(用杯子喝咖啡)而关联在一起。 同样,scalpel(手术刀)和 surgeon(外科医生)并不相似,但在事件上是相关的(外科医生通常会使用手术刀)。

词语之间一种常见的关联类型是,它们属于同一个语义场(semantic field)。 语义场是一组词语,它们覆盖特定语义领域且彼此之间具有结构化关系。 例如,词语可能因为属于语义场而相关联:医院(surgeon 外科医生、scalpel 手术刀、nurse 护士、anesthetic 麻醉剂、hospital 医院)、餐馆(waiter 服务员、menu 菜单、plate 盘子、food 食物、chef 厨师)或房屋(door 门、roof 屋顶、kitchen 厨房、family 家庭、bed 床)。 语义场也与主题模型(topic models)密切相关,例如潜在狄利克雷分配(Latent Dirichlet Allocation, LDA),后者通过对大量文本进行无监督学习,从文本中推断出一组相关的词语。 在发现文档中主题结构方面,语义场和主题模型是非常有用的工具。

在附录 G 中,我们将介绍更多词义之间的关系,如上位关系(hypernymy)或 IS-A(“是一种”)、反义关系(antonymy,反义词)和部分-整体关系(meronymy)。

内涵 最后,词语具有情感意义或内涵(connotations)。connotation(内涵)一词在不同领域中有不同的含义,但在这里我们用它来指词语意义中与作者或读者的情感、情绪、观点或评价相关的方面。 例如,一些词具有正面内涵(wonderful 精彩的),而另一些则具有负面内涵(dreary 沉闷的)。 即使在其他方面意义相似的词语,其内涵也可能不同;例如,fake(假货)、knockoff(仿制品)、forgery(伪造品)与 copy(复制件)、replica(复制品)、reproduction(再制品)在内涵上的差异,或 innocent(天真的,正面内涵)与 naive(幼稚的,负面内涵)之间的区别。 有些词表达正面评价(great 极好的,love 热爱),而另一些则表达负面评价(terrible 糟糕的,hate 憎恨)。 这种表达正面或负面评价的语言被称为情感(sentiment),正如我们在附录 G 中所见,词语情感在很多重要任务中扮演着关键角色,如情感分析、立场检测以及在政治语言和消费者评论中应用 NLP 等。

关于情感意义的早期研究(Osgood 等,1957)发现,词语在情感意义的三个重要维度上有所不同:

  • 效价(valence):刺激物的愉悦程度
  • 唤醒度(arousal):刺激物引发的情绪强度
  • 支配度(dominance):刺激物施加的控制程度

因此,像 happy(快乐)或 satisfied(满足)这样的词在效价上得分很高,而 unhappy(不快乐)或 annoyed(恼怒)则在效价上得分较低。 Excited(兴奋)在唤醒度上得分高,而 calm(平静)在唤醒度上得分低。 Controlling(有控制力的)在支配度上得分高,而 awed(敬畏的)或 influenced(受影响的)则在支配度上得分低。 每个词因此由三个数字表示,对应其在这三个维度上的评分:

效价 (Valence)唤醒度 (Arousal)支配度 (Dominance)
courageous(勇敢的)8.055.57.38
music(音乐)7.675.576.5
heartbreak(心碎)2.455.653.58
cub(幼崽)6.713.954.24

Osgood 等人(1957)注意到,当使用这三个数字来表示词义时,该模型实际上是将每个词表示为三维空间中的一个点,其三维向量分别对应于该词在这三个尺度上的评分。 将词义表示为空间中的一个点(例如,heartbreak(心碎)的部分意义可表示为点 [2.45, 5.65, 3.58]),这一革命性构想,正是向量语义模型的源头。我们将在下文介绍这类模型。