📄️ 硬件总览
用一条主线串起大模型部署中的 GPU、CPU、显存、互联、存储、网络、容量估算和硬件选型。
📄️ GPU/加速卡
关于 GPU/加速卡、显存、互联和 NVIDIA 架构的基础知识。
📄️ CPU 与内存
大模型部署中 CPU、系统内存和主机资源对推理服务的影响。
📄️ 显存
GPU 显存类型、容量、带宽和大模型推理中的显存组成。
📄️ 模型尺寸与显存估算
关于 模型尺寸与显存估算 的基础知识。
📄️ GPU 互联
多 GPU 部署中的 PCIe、NVLink、NVSwitch 和通信瓶颈。
📄️ 存储与模型加载
模型权重存储、加载速度、缓存目录和大模型启动时间相关知识。
📄️ 网络与集群
多机训练和推理集群中的网络、RDMA、InfiniBand、RoCE、通信瓶颈和部署排障。
📄️ 单机多卡
单机多 GPU 部署中的并行方式、显存分配和拓扑注意事项。
📄️ 硬件精度与算力
GPU 算力指标、Tensor Core、低精度计算和大模型性能的关系。
📄️ 硬件选型
根据训练、微调、推理、本地实验等场景选择硬件资源。
📄️ 硬件监控与排障
LLM 训练和推理中的 GPU、显存、温度、功耗和硬件故障排查。