知识体系硬件网络与集群网络与集群 本文用于整理多机 GPU 集群中的网络基础。 待展开内容: Ethernet 与 InfiniBand RDMA RoCE 带宽和延迟 多机 tensor parallel / pipeline parallel 分布式训练通信 MoE all-to-all 网络压力 推理集群负载均衡 跨节点部署的常见问题