第5章 嵌入

荃者所以在鱼，得鱼而忘荃；
言者所以在意，得意而忘言。
——《庄子·外物》

洛杉矶以沥青闻名，但人们熟悉的沥青多铺在高速公路上。而在市中心，还有一处天然沥青——拉布雷亚沥青坑（La Brea tar pits），其中封存着数百万件更新世（Pleistocene Epoch）冰期末期的化石。其中一种是剑齿虎（Smilodon），以其标志性的长犬齿为人熟知。大约五百万年前，在南美洲却生活着另一种完全不同的剑齿兽（Thylacosmilus）。尽管前者是胎盘哺乳动物，后者是有袋类，但两者竟演化出了几乎相同的长犬齿，甚至下颌都长有保护性的骨突。这种不同物种在相似环境下独立演化出相似特征的现象，称为趋同进化——环境塑造了形态（Gould, 1980）。

词语虽非生物，却也可看作一种‘有机体’；而它们之间的相似性，同样离不开上下文（context）的作用。出现在相似上下文中的词，往往意义相近。这种“分布相似性反映语义相似性”的观点，被称为分布假说（distributional hypothesis）。早在1950年代，语言学家如Joos、Harris和Firth就注意到，像“眼科医生”（oculist）和“眼医”（eye-doctor）这样的同义词，常出现在相同的语言环境中（例如靠近“眼睛”“检查”等词），而两个词的意义差异，大致对应于它们所处环境的差异（Harris, 1954, p.157）。

本章将介绍嵌入（embeddings）——一种从文本中自动学习得到的词义向量表示。嵌入是大语言模型及其他现代自然语言处理系统的核心。我们在此介绍的静态嵌入，是后续章节（第八章、第十章）中更强大的动态（或称上下文化）嵌入（如 BERT）的基础。

研究嵌入及其语义的领域，称为向量语义学（vector semantics）。嵌入也是本书首次介绍的表征学习（representation learning）范例——即让系统自动从原始文本中学习有用的表示，而非依赖人工设计的特征（即特征工程）。这种方法已成为现代自然语言处理的重要原则（Bengio et al., 2013）。