跳到主要内容

容量与成本规划

本文用于整理大模型推理服务的容量和成本估算。

待展开内容:

  • QPS、并发和 token throughput 的关系
  • 输入输出 token 分布
  • 显存容量和模型大小
  • KV Cache 对容量的影响
  • GPU 数量估算
  • 峰值流量和冗余
  • 多模型共享资源
  • 量化、蒸馏和缓存对成本的影响
  • 单请求成本估算
  • 云 GPU 与自建 GPU 的取舍