跳到主要内容

上下文窗口

本文用于解释模型最大上下文长度是什么,以及输入、输出、历史对话和检索内容如何共享上下文预算。

待展开内容:

  • context length 的定义
  • input tokens 与 output tokens
  • system prompt、历史消息、RAG 内容占用上下文
  • 超长输入如何处理
  • 长上下文不等于长期记忆
  • Needle in a Haystack
  • 长上下文对 KV Cache 和推理成本的影响
  • 上下文裁剪、摘要和检索策略