跳到主要内容

上下文管理

本文用于整理大模型应用中上下文如何组织、裁剪和预算。

待展开内容:

  • context length 的含义
  • input tokens 与 output tokens 的共享窗口
  • system prompt、历史消息、工具定义和 RAG 内容的 token 预算
  • 长对话历史裁剪策略
  • 摘要压缩和记忆机制
  • 检索内容拼接策略
  • 超长输入的报错、截断和降级
  • 上下文管理对成本、延迟和质量的影响