知识体系工程化知识容量与成本规划容量与成本规划 本文用于整理大模型推理服务的容量和成本估算。 待展开内容: QPS、并发和 token throughput 的关系 输入输出 token 分布 显存容量和模型大小 KV Cache 对容量的影响 GPU 数量估算 峰值流量和冗余 多模型共享资源 量化、蒸馏和缓存对成本的影响 单请求成本估算 云 GPU 与自建 GPU 的取舍