Transformer:让神经网络学会“全局扫描”——从“逐字阅读”到“一眼看懂”
使用自注意力机制实现编码器-解码器模型
使用自注意力机制实现编码器-解码器模型
让解码器在生成每个词时,能“回头看”输入序列,自动找到最相关的部分,它解决了 Seq2Seq 的核心痛点,上下文向量容量有限,长句子信息丢失严重
Seq2Seq 就像一个“双人翻译小组”,用编码器把所有意思浓缩成一个“小纸条”,再让解码器看着这张小纸条,用另一种语言说出来
RNN记性不太好,如果文章太长,前面写的笔记就会慢慢模糊,甚至被新内容覆盖,用长短期记忆网络LSTM来改进
RNN 就像一个会写读书笔记的学生,每读一个词,他就翻看之前的笔记,结合新词,写下新的理解,这样,整段话的“上下文”就被保存在了最后一页笔记里
Word2Vec 原始模型计算太慢?本文带你升级!用 nn.Embedding 替代 one-hot,高效提取词向量。引入负采样,化“大海捞针”为“真假判断”,大幅加速训练。代码实战,教你打造聪明高效的词向量模型。
计算机不懂人类语言,它只懂数字。我们要让AI理解“猫”和“狗”是相似的动物,第一步就是把“猫”变成一串数字向量——这就是Word2Vec的核心思想。