跳到主要内容

KV Cache

本文用于整理 LLM 推理中 KV Cache 的工程知识。

待展开内容:

  • KV Cache 是什么
  • prefill 与 decode 阶段的区别
  • KV Cache 为什么会随上下文长度和并发增长
  • MHA、MQA、GQA 对 KV Cache 的影响
  • KV Cache 显存估算
  • paging / paged attention
  • KV Cache 量化
  • prefix cache
  • 长上下文和高并发下的常见问题