14.1 语音与音标转写

像 ‘p’ 或 ‘a’ 这样的字母，本身已经是对人类语音的一种有用建模。事实上，我们将在第15章看到如何在字母与声波之间建立映射。尽管如此，用稍更抽象的方式来表示语音仍然很有帮助。我们将一个词的发音表示为一串音素（phones），即语音的基本单位，每个音素用源自罗马字母的符号表示。

用于转写世界各种语言的标准语音表示法是国际音标（International Phonetic Alphabet, IPA）。它是一项不断演进的标准，最早制定于1888年。但在本章中，我们将使用 ARPAbet（Shoup, 1980）来表示音素。ARPAbet 是一种简单的音标系统（见图14.1），它方便地使用 ASCII 符号来表示 IPA 中美式英语所用的一个子集。

许多 IPA 和 ARPAbet 的符号与常见的罗马字母相同。例如，ARPAbet 中的音素 [p] 表示 platypus、puma 和 plantain 开头的辅音，也出现在 leopard 的中间或 antelope 的末尾。然而，总体而言，英语正字法中的字母与其对应音素之间的映射关系相当不透明（opaque）。同一个字母在不同上下文中可能代表非常不同的语音。比如，英语字母 c 在 cougar [k uw g axr] 中对应音素 [k]，但在 cell [s eh l] 中却对应音素 [s]。此外，音素 [k] 不仅可以写作 c 或 k，还可以作为 x 的一部分出现（如 fox [f aa k s]），也可以写作 ck（如 jackal [jh ae k el]）或 cc（如 raccoon [r ae k uw n]）。相比之下，许多其他语言（例如西班牙语）在语音与拼写之间的映射要**透明（transparent）**得多。

ARPAbet Symbol	IPA Symbol	Word	ARPAbet Transcription
[p]	[p]	p arsley	[p aa r s l iy]
[t]	[t]	t ea	[t iy]
[k]	[k]	c ook	[k uh k]
[b]	[b]	b ay	[b ey]
[d]	[d]	d ill	[d ih l]
[g]	[g]	g arlic	[g aa r l ix k]
[m]	[m]	m int	[m ih n t]
[n]	[n]	n utmeg	[n ah t m eh g]
[ng]	[ŋ]	baking	[b ey k ix ng]
[f]	[f]	f lour	[f l aw axr]
[v]	[v]	clov e	[k l ow v]
[th]	[θ]	th ick	[th ih k]
[dh]	[ð]	th ose	[dh ow z]
[s]	[s]	s oup	[s uw p]
[z]	[z]	eggs	[eh g z]
[sh]	[ʃ]	squash	[s k w aa sh]
[zh]	[ʒ]	ambros ia	[ae m b r ow zh ax]
[ch]	[tʃ]	ch erry	[ch eh r iy]
[jh]	[dʒ]	j ar	[jh aa r]
[l]	[l]	l icorice	[l ih k axr ix sh]
[w]	[w]	kiw i	[k iy w iy]
[r]	[r]	r ice	[r ay s]
[y]	[j]	y ellow	[y eh l ow]
[h]	[h]	h oney	[h ah n iy]
[iy]	[i]	lily	[l ih l iy]
[ih]	[ɪ]	lily	[l ih l iy]
[ey]	[eɪ]	daisy	[d ey z iy]
[eh]	[ɛ]	pen	[p eh n]
[ae]	[æ]	aster	[ae s t axr]
[aa]	[ɑ]	poppy	[p aa p iy]
[ao]	[ɔ]	orchid	[ao r k ix d]
[uh]	[ʊ]	wood	[w uh d]
[ow]	[oʊ]	lotus	[l ow dx ax s]
[uw]	[u]	tulip	[t uw l ix p]
[ah]	[ʌ]	butter	[b ah dx axr]
[er]	[ɜ]	bird	[b er d]
[ay]	[ai]	iris	[ay r ix s]
[aw]	[aʊ]	flower	[f l aw axr]
[oy]	[oi]	soil	[s oy l]
[ax]	[ə]	pita	[p iy t ax]

图14.1 英语辅音（左）与元音（右）的 ARPAbet 与 IPA 符号对照。

语音转写有多种多样的语音资源可用。在线发音词典为单词提供音标转写。语言数据联盟（LDC）发布了埃及阿拉伯语、荷兰语、英语、德语、日语、韩语、普通话和西班牙语的发音词库。对于英语，CELEX 词典（Baayen 等，1995）包含了 160,595 个词形的发音，并附带音节划分、重音信息，以及形态学和词性标注。开源的 CMU 发音词典（CMU，1993）收录了约 134,000 个词形的发音。而更精细的 UNISYN 词典（Fitt，2002）包含 110,000 个词，可免费用于研究，不仅提供音节划分和重音信息，还涵盖数十种英语方言的发音。

另一类有用的资源是带语音标注的语料库，其中一组声波被人工标注为对应的音素序列。 TIMIT 语料库（NIST，1990）最初由德州仪器（TI）、麻省理工学院（MIT）和 SRI 联合开发，包含 6300 条朗读句子，来自 630 位说话人，每人朗读 10 句。这 6300 条句子选自一个包含 2342 个句子的集合：部分句子特意选取以体现特定方言特征（shibboleths），其余则旨在最大化覆盖语音中的双音素（diphone）组合。语料库中的每条句子都经过人工语音标注；随后，音素序列被自动对齐到对应的声波文件；最后，自动产生的音素边界又经过人工校正（Seneff 和 Zue，1988）。最终结果是一种时间对齐的转写（time-aligned transcription）：每个音素都关联到声波中的起始和结束时间，如图 14.2 所示。


she	had	your	dark	suit	in	greasy	wash	water	all	year
sh iy	hv ae dcl	jh axr	dcl d aa r kcl	s ux q	en	gcl g r iy s ix	w aa sh	q w aa dx axr q	aa l	y ix axr

图14.2 TIMIT 语料库中的一段语音转写，使用了 ARPAbet 的窄式转写特性，例如 had 中 [d] 的腭化、dark 末尾塞音的不除阻、suit 末尾 [t] 的喉化（记作 [q]），以及 water 中 [t] 的闪音化。TIMIT 语料库还包含时间对齐信息（图中未显示）。

Switchboard 转写项目构建了一个带语音标注的语料库，包含从 Switchboard 语料库中抽取的 3.5 小时语音（Greenberg 等，1996），并提供了音节级别的时间对齐转写。图 14.3 展示了一个例子。


0.470	0.640	0.720	0.900	0.953	1.279	1.410	1.630
dh er	k aa	n ax	v ih m	b ix	t w iy n	r ay	n aw

图14.3 Switchboard 语句 they’re kind of in between right now 的语音转写。注意 they’re 和 of 中的元音弱化、kind 和 right 的韵尾脱落，以及重新音节化现象（of 的 [v] 作为 in 的起始辅音）。时间以秒为单位，表示从句子开始到每个音节起始点的时刻。

Buckeye 语料库（Pitt 等，2007；Pitt 等，2005）是一个针对自然美式英语口语的音标转写语料库，包含来自 40 位说话人的约 30 万词。其他语言也有类似的语音转写语料库，例如德语的 Kiel 语料库，以及由中国社会科学院转写的普通话语料库（Li 等，2000）。