上下文窗口
本文用于解释模型最大上下文长度是什么,以及输入、输出、历史对话和检索内容如何共享上下文预算。
待展开内容:
- context length 的定义
- input tokens 与 output tokens
- system prompt、历史消息、RAG 内容占用上下文
- 超长输入如何处理
- 长上下文不等于长期记忆
- Needle in a Haystack
- 长上下文对 KV Cache 和推理成本的影响
- 上下文裁剪、摘要和检索策略
本文用于解释模型最大上下文长度是什么,以及输入、输出、历史对话和检索内容如何共享上下文预算。
待展开内容: