跳到主要内容

显存

本文用于整理 GPU 显存的基础概念和 LLM 推理中的显存组成。

待展开内容:

  • VRAM、HBM、GDDR
  • 显存容量与显存带宽
  • 权重显存
  • KV Cache 显存
  • activation / workspace / runtime overhead
  • 显存碎片
  • 显存利用率
  • OOM 常见原因
  • 显存优化方式