跳到主要内容

硬件监控与排障

本文用于整理大模型服务中的硬件监控和常见排障方法。

待展开内容:

  • nvidia-smi
  • DCGM
  • GPU utilization
  • memory usage
  • power draw
  • temperature
  • ECC error
  • Xid error
  • OOM 排查
  • GPU 掉卡和驱动问题
  • 监控指标和告警建议