韵律(Prosody) 研究语言的语调和节奏特征,特别是如何利用基频(F0)能量(energy)时长(duration) 来传达语用、情感或对话交互层面的意义。1 我们将在下一节转向声学语音学时详细介绍这些声学量。简而言之,能量是我们感知为“响度”的声学属性,而 F0 是声音的基频,即听觉上感知为话语“音高”的声学特征。 韵律可用于标记话语结构(discourse structure),例如陈述句与疑问句之间的区别,或会话的组织方式。 韵律也用于突出某个词或短语的显著性(saliency)。 此外,韵律在副语言功能中被广泛使用,例如传达喜悦、惊讶或愤怒等情感意义。 韵律还在对话中的话轮转换(turn-taking) 管理中发挥重要作用。

14.3.1 韵律显著性:重音、词重音与弱化元音

在美式英语的自然话语中,有些词听起来比其他词更显著(prominent),而这些词中的某些音节也比其他音节更显著。 所谓“显著”,是指这些词或音节在听感上对听者更具突显性。 说话人通过以下方式使一个词或音节在英语中更突显:说得更响(增大能量)、说得更慢(延长时长),或在该词内部改变 F0(使其音高更高或变化更大)。

语调重音(Accent) 我们通过一种称为音高重音(pitch accent) 的语言标记来表示这种显著性。 那些显著的词或音节被认为承载(bear) 一个音高重音。 例如,下面这句话可能会通过重读带下划线的词来发音:

(14.1) I’m a little surprised to hear it characterized as happy.

词重音(Lexical Stress) 承载音高重音的音节称为重读音节(accented syllables)。 并非一个词的每个音节都能承载重音:音高重音必须落在具有词重音(lexical stress) 的音节上。 词重音是词典中标注的该词发音的一个属性;如果一个词被重读,那么其词重音所在的音节就会更响或更长。 例如,surprised 的重音在第二个音节,而不是第一个。(试着把重音放在第一个音节上,说成 SURprised;希望你觉得这听起来不对。) 因此,如果 surprised 在句子中获得音高重音,那么被强化的将是它的第二个音节。 下面的例子展示了带下划线的重读词,其中承载重音的词重音音节(即更响、更长的那个音节)以粗体标出:

(14.2) I’m a little surprised to hear it characterized as happy.

词典中标记了重音信息。 例如,CMU 发音词典(CMU, 1993)用数字 0(非重读)或 1(重读)标注元音,如 counter:[K AW1 N T ER0],或 table:[T EY1 B AH0 L]。 词重音位置的不同会影响词义:名词 content 读作 [K AA1 N T EH0 N T],而形容词 content 则读作 [K AA0 N T EH1 N T]。

弱化元音与中央元音(Schwa) 非重读元音可能进一步弱化为弱化元音(reduced vowels),其中最常见的是中央元音 schwa([ax]),例如 parakeet 的第二个元音:[p ae r ax k iy t]。 在弱化元音中,发音器官的动作不如完整元音那样充分。 但并非所有非重读元音都会弱化;任何元音(尤其是双元音)即使处于非重读位置,也可能保留其完整音质。 例如,元音 [iy] 可出现在重读位置,如 eat [iy t],也可出现在非重读位置,如 carry [k ae r iy]。

总之,韵律的显著性是一个连续统。在实际应用中,常将其划分为若干层级,例如:重读(accented)、词重音(stressed)、完整元音(full vowel)和弱化元音(reduced vowel)。

14.3.2 韵律结构

口语句子具有韵律结构(prosodic structure):有些词自然地聚合成组,而有些词之间则存在明显的停顿或断裂。 韵律结构通常用韵律短语(prosodic phrasing) 来描述,即话语具有一种类似于句法短语结构的韵律层级组织。 例如,句子 I wanted to go to London, but could only get tickets for France 似乎包含两个主要的语调短语(intonation phrases),其边界出现在逗号处。 此外,在第一个语调短语中,似乎还存在一组次一级的韵律短语边界(常称为中间短语(intermediate phrases)),将词语划分为:I wanted | to go | to London。 这类语调短语通常与句法结构成分相关(Price 等,1991;Bennett 和 Elfner,2019)。

自动预测韵律边界对文本到语音合成(TTS)等任务非常重要。 现代方法通常采用序列模型,以原始文本或带有句法树等标注特征的文本作为输入,并在每个词边界处判断是否应插入韵律停顿(break 或 no-break)。 这些模型可在标注了韵律结构的数据上进行训练,例如波士顿大学广播新闻语料库(Boston University Radio News Corpus;Ostendorf 等,1995)。

14.3.3 语调(Tune)

即使两个话语具有相同的重音模式和韵律短语结构,它们仍可能因语调(tune) 不同而在韵律上有所区别。 话语的语调是指其基频(F0)随时间变化的升降模式。 一个非常明显的例子是英语中陈述句与是非疑问句(yes-no questions)之间的区别。 同样的词语,若在句末 F0 上升,则表示是非疑问句(这种上升称为疑问升调(question rise)):

而若句末 F0 下降(称为终结降调(final fall)),则表示陈述语气:

各种语言广泛利用语调轮廓来表达意义(Xu, 2005)。 例如在英语中,除了上述众所周知的是非疑问句升调外,如果一个短语包含由逗号分隔的名词列表,通常在每个名词后出现一个短暂的上升,称为延续升调(continuation rise)。 其他例子还包括英语中用于表达反驳(contradiction)惊讶(surprise) 的典型语调轮廓。

重音与语调轮廓的关联

音高重音(pitch accents)有多种类型,这些类型与语调轮廓(tune)密切相关。 例如,高音重音和低音重音具有不同的功能。 不同语言中存在多种音高重音的分类体系。 其中一种体系是ToBI(Tone and Break Indices,音高与边界标记)语调理论的一部分(Silverman 等,1992)。 在 ToBI 体系中,每个词可关联五种音高重音(pitch accents) 之一(见图 14.9)。 每个话语由一系列语调短语(intonational phrases)组成,每个语调短语以四种边界调(boundary tones) 之一结尾(见图 14.9),用以表示该话语末尾的语调轮廓特征。 目前已有适用于多种语言的 ToBI 版本。

音高重音(Pitch Accents)边界调(Boundary Tones)
H*峰值重音(peak accent)L-L%“终结降调”:美式英语的陈述语调轮廓
L*低音重音(low accent)L-H%延续升调(continuation rise)
L*+H下凹重音(scooped accent)H-H%“疑问升调”:典型的是非疑问句语调轮廓
L+H*上升峰值重音(rising peak accent)H-L%句末平调(final level plateau)
H+!H*阶梯下降重音(step down)

图 14.9 美式英语语调的 ToBI 转写系统中的重音与边界调标签(Beckman 和 Ayers,1997;Beckman 和 Hirschberg,1994)。


  1. 在诗歌中,“prosody”一词有不同但相关的用法,指对诗行格律结构的研究。 ↩︎