LLM 推理中 KV Cache 的作用、显存占用、并发影响和优化策略。
GPU 显存类型、容量、带宽和大模型推理中的显存组成。
关于 模型尺寸与显存估算 的基础知识。
用一条主线串起大模型部署中的 GPU、CPU、显存、互联、存储、网络、容量估算和硬件选型。