14.3 韵律

韵律（Prosody） 研究语言的语调和节奏特征，特别是如何利用基频（F0）、能量（energy） 和 时长（duration） 来传达语用、情感或对话交互层面的意义。¹ 我们将在下一节转向声学语音学时详细介绍这些声学量。简而言之，能量是我们感知为“响度”的声学属性，而 F0 是声音的基频，即听觉上感知为话语“音高”的声学特征。韵律可用于标记话语结构（discourse structure），例如陈述句与疑问句之间的区别，或会话的组织方式。韵律也用于突出某个词或短语的显著性（saliency）。此外，韵律在副语言功能中被广泛使用，例如传达喜悦、惊讶或愤怒等情感意义。韵律还在对话中的话轮转换（turn-taking） 管理中发挥重要作用。

14.3.1 韵律显著性：重音、词重音与弱化元音

在美式英语的自然话语中，有些词听起来比其他词更显著（prominent），而这些词中的某些音节也比其他音节更显著。所谓“显著”，是指这些词或音节在听感上对听者更具突显性。说话人通过以下方式使一个词或音节在英语中更突显：说得更响（增大能量）、说得更慢（延长时长），或在该词内部改变 F0（使其音高更高或变化更大）。

语调重音（Accent） 我们通过一种称为音高重音（pitch accent） 的语言标记来表示这种显著性。那些显著的词或音节被认为承载（bear） 一个音高重音。例如，下面这句话可能会通过重读带下划线的词来发音：

(14.1) I’m a little surprised to hear it characterized as happy.

词重音（Lexical Stress） 承载音高重音的音节称为重读音节（accented syllables）。并非一个词的每个音节都能承载重音：音高重音必须落在具有词重音（lexical stress） 的音节上。词重音是词典中标注的该词发音的一个属性；如果一个词被重读，那么其词重音所在的音节就会更响或更长。例如，surprised 的重音在第二个音节，而不是第一个。（试着把重音放在第一个音节上，说成 SURprised；希望你觉得这听起来不对。）因此，如果 surprised 在句子中获得音高重音，那么被强化的将是它的第二个音节。下面的例子展示了带下划线的重读词，其中承载重音的词重音音节（即更响、更长的那个音节）以粗体标出：

(14.2) I’m a little surprised to hear it characterized as happy.

词典中标记了重音信息。例如，CMU 发音词典（CMU, 1993）用数字 0（非重读）或 1（重读）标注元音，如 counter：[K AW1 N T ER0]，或 table：[T EY1 B AH0 L]。词重音位置的不同会影响词义：名词 content 读作 [K AA1 N T EH0 N T]，而形容词 content 则读作 [K AA0 N T EH1 N T]。

弱化元音与中央元音（Schwa） 非重读元音可能进一步弱化为弱化元音（reduced vowels），其中最常见的是中央元音 schwa（[ax]），例如 parakeet 的第二个元音：[p ae r ax k iy t]。在弱化元音中，发音器官的动作不如完整元音那样充分。但并非所有非重读元音都会弱化；任何元音（尤其是双元音）即使处于非重读位置，也可能保留其完整音质。例如，元音 [iy] 可出现在重读位置，如 eat [iy t]，也可出现在非重读位置，如 carry [k ae r iy]。

总之，韵律的显著性是一个连续统。在实际应用中，常将其划分为若干层级，例如：重读（accented）、词重音（stressed）、完整元音（full vowel）和弱化元音（reduced vowel）。

14.3.2 韵律结构

口语句子具有韵律结构（prosodic structure）：有些词自然地聚合成组，而有些词之间则存在明显的停顿或断裂。韵律结构通常用韵律短语（prosodic phrasing） 来描述，即话语具有一种类似于句法短语结构的韵律层级组织。例如，句子 I wanted to go to London, but could only get tickets for France 似乎包含两个主要的语调短语（intonation phrases），其边界出现在逗号处。此外，在第一个语调短语中，似乎还存在一组次一级的韵律短语边界（常称为中间短语（intermediate phrases）），将词语划分为：I wanted | to go | to London。这类语调短语通常与句法结构成分相关（Price 等，1991；Bennett 和 Elfner，2019）。

自动预测韵律边界对文本到语音合成（TTS）等任务非常重要。现代方法通常采用序列模型，以原始文本或带有句法树等标注特征的文本作为输入，并在每个词边界处判断是否应插入韵律停顿（break 或 no-break）。这些模型可在标注了韵律结构的数据上进行训练，例如波士顿大学广播新闻语料库（Boston University Radio News Corpus；Ostendorf 等，1995）。

14.3.3 语调（Tune）

即使两个话语具有相同的重音模式和韵律短语结构，它们仍可能因语调（tune） 不同而在韵律上有所区别。话语的语调是指其基频（F0）随时间变化的升降模式。一个非常明显的例子是英语中陈述句与是非疑问句（yes-no questions）之间的区别。同样的词语，若在句末 F0 上升，则表示是非疑问句（这种上升称为疑问升调（question rise））：

而若句末 F0 下降（称为终结降调（final fall）），则表示陈述语气：

各种语言广泛利用语调轮廓来表达意义（Xu, 2005）。例如在英语中，除了上述众所周知的是非疑问句升调外，如果一个短语包含由逗号分隔的名词列表，通常在每个名词后出现一个短暂的上升，称为延续升调（continuation rise）。其他例子还包括英语中用于表达反驳（contradiction） 或惊讶（surprise） 的典型语调轮廓。

重音与语调轮廓的关联

音高重音（pitch accents）有多种类型，这些类型与语调轮廓（tune）密切相关。例如，高音重音和低音重音具有不同的功能。不同语言中存在多种音高重音的分类体系。其中一种体系是ToBI（Tone and Break Indices，音高与边界标记）语调理论的一部分（Silverman 等，1992）。在 ToBI 体系中，每个词可关联五种音高重音（pitch accents） 之一（见图 14.9）。每个话语由一系列语调短语（intonational phrases）组成，每个语调短语以四种边界调（boundary tones） 之一结尾（见图 14.9），用以表示该话语末尾的语调轮廓特征。目前已有适用于多种语言的 ToBI 版本。

	音高重音（Pitch Accents）		边界调（Boundary Tones）
H*	峰值重音（peak accent）	L-L%	“终结降调”：美式英语的陈述语调轮廓
L*	低音重音（low accent）	L-H%	延续升调（continuation rise）
*L+H**	下凹重音（scooped accent）	H-H%	“疑问升调”：典型的是非疑问句语调轮廓
L+H*	上升峰值重音（rising peak accent）	H-L%	句末平调（final level plateau）
H+!H*	阶梯下降重音（step down）

图 14.9 美式英语语调的 ToBI 转写系统中的重音与边界调标签（Beckman 和 Ayers，1997；Beckman 和 Hirschberg，1994）。

在诗歌中，“prosody”一词有不同但相关的用法，指对诗行格律结构的研究。 ↩︎

14.3.1 韵律显著性：重音、词重音与弱化元音#

14.3.2 韵律结构#

14.3.3 语调（Tune）#

重音与语调轮廓的关联#

14.3.1 韵律显著性：重音、词重音与弱化元音

14.3.2 韵律结构

14.3.3 语调（Tune）

重音与语调轮廓的关联