“我能很好地感知很多维度,只要这些维度大约是二维的。”

已故经济学家 马丁·舒比克

可视化嵌入向量对于帮助我们理解、应用和改进这些词义模型至关重要。 但如何可视化一个(例如)100维的向量呢?

图8:针对三类名词的多维尺度分析(Multidimensional scaling)。

图9:基于向量相关性距离的三类名词层次聚类。

要可视化一个嵌入在空间中的词 w 的词义,最简单方法是列出与 w 最相似的词,即按词汇表中所有词向量与 w 的向量之间的余弦相似度进行排序。 例如,使用GloVe算法计算出的某个嵌入向量,与 frog (青蛙)最接近的7个词是:frogs(青蛙,复数)、toad(蟾蜍)、litoria(雨滨蛙属)、leptodactylidae(细趾蟾科)、rana(蛙属)、lizard(蜥蜴)和 eleutherodactylus(细趾蟾属)(Pennington 等, 2014)。

另一种可视化方法是使用聚类算法,展示嵌入空间中哪些词彼此相似的层次结构。 左侧未加标题的图例使用了对部分名词嵌入向量进行层次聚类的方法作为可视化手段(Rohde 等, 2006)。

然而,目前最常见的可视化方法可能是将词的 100 维空间投影到二维空间中。 图 5.1 和图 5.9 展示了这样一种可视化效果,它们使用了一种称为 t-SNE 的投影方法(van der Maaten 和 Hinton, 2008)。