荃者所以在鱼,得鱼而忘荃;
言者所以在意,得意而忘言。——《庄子·外物》

洛杉矶以沥青闻名,但人们熟悉的沥青多铺在高速公路上。 而在市中心,还有一处天然沥青——拉布雷亚沥青坑(La Brea tar pits),其中封存着数百万件更新世(Pleistocene Epoch)冰期末期的化石。 其中一种是剑齿虎(Smilodon),以其标志性的长犬齿为人熟知。 大约五百万年前,在南美洲却生活着另一种完全不同的剑齿兽(Thylacosmilus)。 尽管前者是胎盘哺乳动物,后者是有袋类,但两者竟演化出了几乎相同的长犬齿,甚至下颌都长有保护性的骨突。 这种不同物种在相似环境下独立演化出相似特征的现象,称为趋同进化——环境塑造了形态(Gould, 1980)。
词语虽非生物,却也可看作一种‘有机体’;而它们之间的相似性,同样离不开上下文(context)的作用。 出现在相似上下文中的词,往往意义相近。 这种“分布相似性反映语义相似性”的观点,被称为分布假说(distributional hypothesis)。 早在1950年代,语言学家如Joos、Harris和Firth就注意到,像“眼科医生”(oculist)和“眼医”(eye-doctor)这样的同义词,常出现在相同的语言环境中(例如靠近“眼睛”“检查”等词),而两个词的意义差异,大致对应于它们所处环境的差异(Harris, 1954, p.157)。
本章将介绍嵌入(embeddings)——一种从文本中自动学习得到的词义向量表示。 嵌入是大语言模型及其他现代自然语言处理系统的核心。 我们在此介绍的静态嵌入,是后续章节(第八章、第十章)中更强大的动态(或称上下文化)嵌入(如 BERT)的基础。
研究嵌入及其语义的领域,称为向量语义学(vector semantics)。 嵌入也是本书首次介绍的表征学习(representation learning)范例——即让系统自动从原始文本中学习有用的表示,而非依赖人工设计的特征(即特征工程)。这种方法已成为现代自然语言处理的重要原则(Bengio et al., 2013)。