知识体系LLM 基础位置编码位置编码 本文用于解释 Transformer 为什么需要位置信息,以及 RoPE 等位置编码方法如何影响长上下文能力。 待展开内容: 为什么 Self-Attention 不天然知道顺序 绝对位置编码 正弦余弦位置编码 RoPE 的直觉 ALiBi 的直觉 位置外推和长上下文 rope scaling 位置编码配置错误的常见问题