LLM 推理中 KV Cache 的作用、显存占用、并发影响和优化策略。
大语言模型上下文窗口的含义、限制、长上下文能力和工程影响。
Transformer 中位置编码的作用、常见方法和长上下文扩展中的注意点。