KV Cache
本文用于整理 LLM 推理中 KV Cache 的工程知识。
待展开内容:
- KV Cache 是什么
- prefill 与 decode 阶段的区别
- KV Cache 为什么会随上下文长度和并发增长
- MHA、MQA、GQA 对 KV Cache 的影响
- KV Cache 显存估算
- paging / paged attention
- KV Cache 量化
- prefix cache
- 长上下文和高并发下的常见问题
本文用于整理 LLM 推理中 KV Cache 的工程知识。
待展开内容: