跳到主要内容

上下文窗口

本文用于解释模型最大上下文长度是什么，以及输入、输出、历史对话和检索内容如何共享上下文预算。

待展开内容：

context length 的定义
input tokens 与 output tokens
system prompt、历史消息、RAG 内容占用上下文
超长输入如何处理
长上下文不等于长期记忆
Needle in a Haystack
长上下文对 KV Cache 和推理成本的影响
上下文裁剪、摘要和检索策略