词向量与 Embedding
本文用于解释模型如何把离散 token id 转换成可计算的连续向量。
待展开内容:
- token id 为什么不能直接表达语义
- embedding lookup
- embedding 矩阵
- hidden size
- 向量空间中的相似性
- 输入 embedding 与输出 LM Head
- embedding 模型和生成模型里的 embedding 区别
- RAG 中的 embedding 与模型内部 embedding 的关系
本文用于解释模型如何把离散 token id 转换成可计算的连续向量。
待展开内容: