像 ‘p’ 或 ‘a’ 这样的字母,本身已经是对人类语音的一种有用建模。事实上,我们将在第15章看到如何在字母与声波之间建立映射。 尽管如此,用稍更抽象的方式来表示语音仍然很有帮助。 我们将一个词的发音表示为一串音素(phones),即语音的基本单位,每个音素用源自罗马字母的符号表示。
用于转写世界各种语言的标准语音表示法是国际音标(International Phonetic Alphabet, IPA)。它是一项不断演进的标准,最早制定于1888年。 但在本章中,我们将使用 ARPAbet(Shoup, 1980)来表示音素。ARPAbet 是一种简单的音标系统(见图14.1),它方便地使用 ASCII 符号来表示 IPA 中美式英语所用的一个子集。
许多 IPA 和 ARPAbet 的符号与常见的罗马字母相同。 例如,ARPAbet 中的音素 [p] 表示 platypus、puma 和 plantain 开头的辅音,也出现在 leopard 的中间或 antelope 的末尾。 然而,总体而言,英语正字法中的字母与其对应音素之间的映射关系相当不透明(opaque)。同一个字母在不同上下文中可能代表非常不同的语音。 比如,英语字母 c 在 cougar [k uw g axr] 中对应音素 [k],但在 cell [s eh l] 中却对应音素 [s]。 此外,音素 [k] 不仅可以写作 c 或 k,还可以作为 x 的一部分出现(如 fox [f aa k s]),也可以写作 ck(如 jackal [jh ae k el])或 cc(如 raccoon [r ae k uw n])。 相比之下,许多其他语言(例如西班牙语)在语音与拼写之间的映射要**透明(transparent)**得多。
| ARPAbet Symbol | IPA Symbol | Word | ARPAbet Transcription |
|---|---|---|---|
| [p] | [p] | p arsley | [p aa r s l iy] |
| [t] | [t] | t ea | [t iy] |
| [k] | [k] | c ook | [k uh k] |
| [b] | [b] | b ay | [b ey] |
| [d] | [d] | d ill | [d ih l] |
| [g] | [g] | g arlic | [g aa r l ix k] |
| [m] | [m] | m int | [m ih n t] |
| [n] | [n] | n utmeg | [n ah t m eh g] |
| [ng] | [ŋ] | baking | [b ey k ix ng] |
| [f] | [f] | f lour | [f l aw axr] |
| [v] | [v] | clov e | [k l ow v] |
| [th] | [θ] | th ick | [th ih k] |
| [dh] | [ð] | th ose | [dh ow z] |
| [s] | [s] | s oup | [s uw p] |
| [z] | [z] | eggs | [eh g z] |
| [sh] | [ʃ] | squash | [s k w aa sh] |
| [zh] | [ʒ] | ambros ia | [ae m b r ow zh ax] |
| [ch] | [tʃ] | ch erry | [ch eh r iy] |
| [jh] | [dʒ] | j ar | [jh aa r] |
| [l] | [l] | l icorice | [l ih k axr ix sh] |
| [w] | [w] | kiw i | [k iy w iy] |
| [r] | [r] | r ice | [r ay s] |
| [y] | [j] | y ellow | [y eh l ow] |
| [h] | [h] | h oney | [h ah n iy] |
| [iy] | [i] | lily | [l ih l iy] |
| [ih] | [ɪ] | lily | [l ih l iy] |
| [ey] | [eɪ] | daisy | [d ey z iy] |
| [eh] | [ɛ] | pen | [p eh n] |
| [ae] | [æ] | aster | [ae s t axr] |
| [aa] | [ɑ] | poppy | [p aa p iy] |
| [ao] | [ɔ] | orchid | [ao r k ix d] |
| [uh] | [ʊ] | wood | [w uh d] |
| [ow] | [oʊ] | lotus | [l ow dx ax s] |
| [uw] | [u] | tulip | [t uw l ix p] |
| [ah] | [ʌ] | butter | [b ah dx axr] |
| [er] | [ɜ] | bird | [b er d] |
| [ay] | [ai] | iris | [ay r ix s] |
| [aw] | [aʊ] | flower | [f l aw axr] |
| [oy] | [oi] | soil | [s oy l] |
| [ax] | [ə] | pita | [p iy t ax] |
图14.1 英语辅音(左)与元音(右)的 ARPAbet 与 IPA 符号对照。
语音转写有多种多样的语音资源可用。 在线发音词典为单词提供音标转写。 语言数据联盟(LDC)发布了埃及阿拉伯语、荷兰语、英语、德语、日语、韩语、普通话和西班牙语的发音词库。 对于英语,CELEX 词典(Baayen 等,1995)包含了 160,595 个词形的发音,并附带音节划分、重音信息,以及形态学和词性标注。 开源的 CMU 发音词典(CMU,1993)收录了约 134,000 个词形的发音。而更精细的 UNISYN 词典(Fitt,2002)包含 110,000 个词,可免费用于研究,不仅提供音节划分和重音信息,还涵盖数十种英语方言的发音。
另一类有用的资源是带语音标注的语料库,其中一组声波被人工标注为对应的音素序列。 TIMIT 语料库(NIST,1990)最初由德州仪器(TI)、麻省理工学院(MIT)和 SRI 联合开发,包含 6300 条朗读句子,来自 630 位说话人,每人朗读 10 句。 这 6300 条句子选自一个包含 2342 个句子的集合:部分句子特意选取以体现特定方言特征(shibboleths),其余则旨在最大化覆盖语音中的双音素(diphone)组合。 语料库中的每条句子都经过人工语音标注;随后,音素序列被自动对齐到对应的声波文件;最后,自动产生的音素边界又经过人工校正(Seneff 和 Zue,1988)。 最终结果是一种时间对齐的转写(time-aligned transcription):每个音素都关联到声波中的起始和结束时间,如图 14.2 所示。
| she | had | your | dark | suit | in | greasy | wash | water | all | year | |
| sh iy | hv ae dcl | jh axr | dcl d aa r kcl | s ux q | en | gcl g r iy s ix | w aa sh | q w aa dx axr q | aa l | y ix axr |
图14.2 TIMIT 语料库中的一段语音转写,使用了 ARPAbet 的窄式转写特性,例如 had 中 [d] 的腭化、dark 末尾塞音的不除阻、suit 末尾 [t] 的喉化(记作 [q]),以及 water 中 [t] 的闪音化。TIMIT 语料库还包含时间对齐信息(图中未显示)。
Switchboard 转写项目构建了一个带语音标注的语料库,包含从 Switchboard 语料库中抽取的 3.5 小时语音(Greenberg 等,1996),并提供了音节级别的时间对齐转写。图 14.3 展示了一个例子。
| 0.470 | 0.640 | 0.720 | 0.900 | 0.953 | 1.279 | 1.410 | 1.630 |
| dh er | k aa | n ax | v ih m | b ix | t w iy n | r ay | n aw |
图14.3 Switchboard 语句 they’re kind of in between right now 的语音转写。注意 they’re 和 of 中的元音弱化、kind 和 right 的韵尾脱落,以及重新音节化现象(of 的 [v] 作为 in 的起始辅音)。时间以秒为单位,表示从句子开始到每个音节起始点的时刻。
Buckeye 语料库(Pitt 等,2007;Pitt 等,2005)是一个针对自然美式英语口语的音标转写语料库,包含来自 40 位说话人的约 30 万词。 其他语言也有类似的语音转写语料库,例如德语的 Kiel 语料库,以及由中国社会科学院转写的普通话语料库(Li 等,2000)。