词是有内部结构的。 在字符层面,这一点显而易见。 单词 cats 由四个字符 ‘c’、‘a’、‘t’、‘s’ 构成。 但更深层次上,词还包含具有连贯语义的组成部分。 这些组成部分称为语素(morphemes),而对语素的研究称为形态学(morphology)。 语素是语言中最小的表义单位。 例如,单词 fox 仅包含一个语素(即 fox 本身),而 cats 则包含两个语素:表示“猫”的语素 cat 和表示复数的语素 -s。
以下是一个用连字符标出语素边界的英文句子:
(2.6) Doc work-ed care-ful-ly wash-ing the glass-es
如前所述,在中文中,书写系统恰好与语素高度对应——每个汉字通常对应一个语素。 以下是一个普通话例句,每个汉字(即语素)均附有词义标注(gloss),其后为整句翻译:
(2.7) 梅 干 菜 用 清 水 泡 软, 捞 出 后 , 沥 干
plum dry vegetable use clear water soak soft, remove out after, drip dry
切 碎
chop fragment
Soak the preserved vegetable in water until soft, remove, drain, and chop
我们通常将语素分为两大类,词根(roots):词的核心语素,承载主要语义;词缀(affixes):附加在词根上,表达各类附加意义。 在上述英文例子中,worked 的 work 是词根,-ed 是词缀;同样,glasses 中的 glass 是词根,-es 是词缀。
词缀本身又可分为两类(更准确地说,是介于两个极点之间的一个连续统)。 一端是屈折语素(inflectional morphemes),这类语素属于语法性成分,通常承担句法功能,例如标记一致关系。 例如,英语中名词复数标记 -s(或 -es)和动词过去时标记 -ed 都是屈折语素。 屈折语素通常具有能产性(productive),常常是强制性的,且其语义高度可预测。 另一端是派生语素(derivational morphemes),它们在使用方式和语义上更具特异性。 通常仅适用于特定子类的词,并且会生成与词根不同词性的新词,其确切含义往往难以完全预测。 例如,上例中的名词 care 可与派生词缀 -ful 结合,构成形容词 careful;再添加另一个派生词缀 -ly,则得到副词 carefully。
此外,还存在第三类语素:附着语素(clitics)。 附着语素在句法上表现得像一个独立的词,但在形式上被弱化,并在语音上(有时也在正字法上)依附于另一个词。 例如,英语中 I’ve 里的 ’ve 就是一个附着语素:它具有动词 have 的语法意义,但不能独立出现(你不能单独说 “’ve” 这样的句子)。 同样,短语 the teacher’s book 中的所有格标记 ’s 也是一个附着语素。 法语中 l’opera里的定冠词 l’ 是附着语素;阿拉伯语中的介词 b(意为“用/以”)和连词 w(意为“和”)也属于此类。
研究语言在形态结构上的差异(即词如何分解为其组成部分)被称为形态类型学(morphological typology)。 尽管不同语言的形态系统可在多个维度上存在差异,但其中有两个维度对计算层面的词元化(computational word tokenization)尤为关键。
第一个维度是每个词所包含的语素数量。 在某些语言中,如越南语和粤语,每个词平均仅包含略多于一个语素。 我们将这类语言称为孤立型语言(isolating languages)。 例如,以下粤语句子中的每个词都只包含一个语素(同时也对应一个音节):
(2.8) keoi5 waa6 cyun4 gwok3 zeoi3 daai6 gaan1 uk1 hai6 ni1 gaan1
he say entire country most big building house is this building
“He said the biggest house in the country was this one”
相反,在诸如科里亚克语(Koryak)这样的语言中(一种通行于俄罗斯堪察加半岛北部的楚科奇–堪察加语系语言),单个词可能包含大量语素,其表达的内容相当于英语中的一个完整句子(Arkadiev, 2020;Kurebito, 2017)。 我们将这类语言称为综合型语言(synthetic languages),而处于该谱系最极端的一端则称为多式综合型语言(polysynthetic languages)。
(2.9) t-@-nk’e-mejN-@-jetem@-nni-k
1SG.S-E-midnight-big-E-yurt.cover-E-sew-1SG.S[PFV]
“I sewed a lot of yurt covers in the middle of a night.”
(科里亚克语,楚科奇–堪察加语系,俄罗斯;引自 Kurebito (2017, 844))
图 2.3 展示了语言类型学家约瑟夫·格林伯格(Joseph Greenberg, 1960)早期对若干语言中“每词语素数”的估算。

图 2.3 约瑟夫·格林伯格(1960)对若干语言中每词语素数量的早期估计。
第二个维度是语素是否易于切分,其谱系一端是像土耳其语这样的黏着型语言(agglutinative languages),其中各语素边界相对清晰;另一端则是像俄语这样的融合型语言(fusional languages),其中单个词缀可能融合多个语素信息。 例如,俄语词 stolom(意为“桌子”,单数、工具格、第一变格类)中的词尾 -om 同时编码了“工具格”、“单数”和“第一变格类”三个不同的形态范畴,无法将其语义成分拆解到更小的单位。
英语中 She reads the article 的 -s 后缀也是融合的典型例子:该词缀同时表示“第三人称单数”和“现在时”,而我们无法将这两种语法意义进一步分配给 -s 内部的不同部分。
尽管我们常将这些特性(分析型(即孤立型)、多式综合型、融合型、黏着型)笼统地视为“语言的属性”,但实际上,一种语言可能同时采用多种形态策略。因此,更准确的说法是:这些只是语言在形态结构上的总体倾向(general tendencies),而非绝对分类。
尽管如此,语素本身难以精确定义,且许多语言的语素结构复杂、不易分割,这些因素使得跨语言地以语素作为词元化的统一标准变得极其困难。