知识体系硬件单机多卡单机多卡 本文用于整理单机多 GPU 部署 LLM 的常见模式。 待展开内容: 为什么需要多卡 tensor parallel pipeline parallel expert parallel data parallel 显存如何分布 多卡通信开销 GPU 拓扑检查 单机多卡推理框架配置 常见 OOM 和性能问题