跳到主要内容

网络与集群

本文用于整理多机 GPU 集群中的网络基础。

待展开内容:

  • Ethernet 与 InfiniBand
  • RDMA
  • RoCE
  • 带宽和延迟
  • 多机 tensor parallel / pipeline parallel
  • 分布式训练通信
  • MoE all-to-all 网络压力
  • 推理集群负载均衡
  • 跨节点部署的常见问题