知识体系工程化知识上下文管理上下文管理 本文用于整理大模型应用中上下文如何组织、裁剪和预算。 待展开内容: context length 的含义 input tokens 与 output tokens 的共享窗口 system prompt、历史消息、工具定义和 RAG 内容的 token 预算 长对话历史裁剪策略 摘要压缩和记忆机制 检索内容拼接策略 超长输入的报错、截断和降级 上下文管理对成本、延迟和质量的影响