跳到主要内容

位置编码

本文用于解释 Transformer 为什么需要位置信息,以及 RoPE 等位置编码方法如何影响长上下文能力。

待展开内容:

  • 为什么 Self-Attention 不天然知道顺序
  • 绝对位置编码
  • 正弦余弦位置编码
  • RoPE 的直觉
  • ALiBi 的直觉
  • 位置外推和长上下文
  • rope scaling
  • 位置编码配置错误的常见问题