跳到主要内容

词向量与 Embedding

本文用于解释模型如何把离散 token id 转换成可计算的连续向量。

待展开内容:

  • token id 为什么不能直接表达语义
  • embedding lookup
  • embedding 矩阵
  • hidden size
  • 向量空间中的相似性
  • 输入 embedding 与输出 LM Head
  • embedding 模型和生成模型里的 embedding 区别
  • RAG 中的 embedding 与模型内部 embedding 的关系