像 ‘p’ 或 ‘a’ 这样的字母,本身已经是对人类语音的一种有用建模。事实上,我们将在第15章看到如何在字母与声波之间建立映射。 尽管如此,用稍更抽象的方式来表示语音仍然很有帮助。 我们将一个词的发音表示为一串音素(phones),即语音的基本单位,每个音素用源自罗马字母的符号表示。

用于转写世界各种语言的标准语音表示法是国际音标(International Phonetic Alphabet, IPA)。它是一项不断演进的标准,最早制定于1888年。 但在本章中,我们将使用 ARPAbet(Shoup, 1980)来表示音素。ARPAbet 是一种简单的音标系统(见图14.1),它方便地使用 ASCII 符号来表示 IPA 中美式英语所用的一个子集。

许多 IPA 和 ARPAbet 的符号与常见的罗马字母相同。 例如,ARPAbet 中的音素 [p] 表示 platypuspumaplantain 开头的辅音,也出现在 leopard 的中间或 antelope 的末尾。 然而,总体而言,英语正字法中的字母与其对应音素之间的映射关系相当不透明(opaque)。同一个字母在不同上下文中可能代表非常不同的语音。 比如,英语字母 ccougar [k uw g axr] 中对应音素 [k],但在 cell [s eh l] 中却对应音素 [s]。 此外,音素 [k] 不仅可以写作 ck,还可以作为 x 的一部分出现(如 fox [f aa k s]),也可以写作 ck(如 jackal [jh ae k el])或 cc(如 raccoon [r ae k uw n])。 相比之下,许多其他语言(例如西班牙语)在语音与拼写之间的映射要**透明(transparent)**得多。

ARPAbet SymbolIPA SymbolWordARPAbet Transcription
[p][p]p arsley[p aa r s l iy]
[t][t]t ea[t iy]
[k][k]c ook[k uh k]
[b][b]b ay[b ey]
[d][d]d ill[d ih l]
[g][g]g arlic[g aa r l ix k]
[m][m]m int[m ih n t]
[n][n]n utmeg[n ah t m eh g]
[ng][ŋ]baking[b ey k ix ng]
[f][f]f lour[f l aw axr]
[v][v]clov e[k l ow v]
[th][θ]th ick[th ih k]
[dh][ð]th ose[dh ow z]
[s][s]s oup[s uw p]
[z][z]eggs[eh g z]
[sh][ʃ]squash[s k w aa sh]
[zh][ʒ]ambros ia[ae m b r ow zh ax]
[ch][tʃ]ch erry[ch eh r iy]
[jh][dʒ]j ar[jh aa r]
[l][l]l icorice[l ih k axr ix sh]
[w][w]kiw i[k iy w iy]
[r][r]r ice[r ay s]
[y][j]y ellow[y eh l ow]
[h][h]h oney[h ah n iy]
[iy][i]lily[l ih l iy]
[ih][ɪ]lily[l ih l iy]
[ey][eɪ]daisy[d ey z iy]
[eh][ɛ]pen[p eh n]
[ae][æ]aster[ae s t axr]
[aa][ɑ]poppy[p aa p iy]
[ao][ɔ]orchid[ao r k ix d]
[uh][ʊ]wood[w uh d]
[ow][oʊ]lotus[l ow dx ax s]
[uw][u]tulip[t uw l ix p]
[ah][ʌ]butter[b ah dx axr]
[er][ɜ]bird[b er d]
[ay][ai]iris[ay r ix s]
[aw][aʊ]flower[f l aw axr]
[oy][oi]soil[s oy l]
[ax][ə]pita[p iy t ax]

图14.1 英语辅音(左)与元音(右)的 ARPAbet 与 IPA 符号对照。

语音转写有多种多样的语音资源可用。 在线发音词典为单词提供音标转写。 语言数据联盟(LDC)发布了埃及阿拉伯语、荷兰语、英语、德语、日语、韩语、普通话和西班牙语的发音词库。 对于英语,CELEX 词典(Baayen 等,1995)包含了 160,595 个词形的发音,并附带音节划分、重音信息,以及形态学和词性标注。 开源的 CMU 发音词典(CMU,1993)收录了约 134,000 个词形的发音。而更精细的 UNISYN 词典(Fitt,2002)包含 110,000 个词,可免费用于研究,不仅提供音节划分和重音信息,还涵盖数十种英语方言的发音。

另一类有用的资源是带语音标注的语料库,其中一组声波被人工标注为对应的音素序列。 TIMIT 语料库(NIST,1990)最初由德州仪器(TI)、麻省理工学院(MIT)和 SRI 联合开发,包含 6300 条朗读句子,来自 630 位说话人,每人朗读 10 句。 这 6300 条句子选自一个包含 2342 个句子的集合:部分句子特意选取以体现特定方言特征(shibboleths),其余则旨在最大化覆盖语音中的双音素(diphone)组合。 语料库中的每条句子都经过人工语音标注;随后,音素序列被自动对齐到对应的声波文件;最后,自动产生的音素边界又经过人工校正(Seneff 和 Zue,1988)。 最终结果是一种时间对齐的转写(time-aligned transcription):每个音素都关联到声波中的起始和结束时间,如图 14.2 所示。

shehadyourdarksuitingreasywashwaterallyear
sh iyhv ae dcljh axrdcl d aa r kcls ux qengcl g r iy s ixw aa shq w aa dx axr qaa ly ix axr

图14.2 TIMIT 语料库中的一段语音转写,使用了 ARPAbet 的窄式转写特性,例如 had 中 [d] 的腭化、dark 末尾塞音的不除阻、suit 末尾 [t] 的喉化(记作 [q]),以及 water 中 [t] 的闪音化。TIMIT 语料库还包含时间对齐信息(图中未显示)。

Switchboard 转写项目构建了一个带语音标注的语料库,包含从 Switchboard 语料库中抽取的 3.5 小时语音(Greenberg 等,1996),并提供了音节级别的时间对齐转写。图 14.3 展示了一个例子。

0.4700.6400.7200.9000.9531.2791.4101.630
dh erk aan axv ih mb ixt w iy nr ayn aw

图14.3 Switchboard 语句 they’re kind of in between right now 的语音转写。注意 they’reof 中的元音弱化、kindright 的韵尾脱落,以及重新音节化现象(of 的 [v] 作为 in 的起始辅音)。时间以秒为单位,表示从句子开始到每个音节起始点的时刻。

Buckeye 语料库(Pitt 等,2007;Pitt 等,2005)是一个针对自然美式英语口语的音标转写语料库,包含来自 40 位说话人的约 30 万词。 其他语言也有类似的语音转写语料库,例如德语的 Kiel 语料库,以及由中国社会科学院转写的普通话语料库(Li 等,2000)。