跳到主要内容

单机多卡

本文用于整理单机多 GPU 部署 LLM 的常见模式。

待展开内容:

  • 为什么需要多卡
  • tensor parallel
  • pipeline parallel
  • expert parallel
  • data parallel
  • 显存如何分布
  • 多卡通信开销
  • GPU 拓扑检查
  • 单机多卡推理框架配置
  • 常见 OOM 和性能问题