跳到主要内容

硬件

GPU、显存、部署硬件和推理性能相关内容。

📄️ 硬件总览

用一条主线串起大模型部署中的 GPU、CPU、显存、互联、存储、网络、容量估算和硬件选型。

📄️ GPU/加速卡

关于 GPU/加速卡、显存、互联和 NVIDIA 架构的基础知识。

📄️ CPU 与内存

大模型部署中 CPU、系统内存和主机资源对推理服务的影响。

📄️ 显存

GPU 显存类型、容量、带宽和大模型推理中的显存组成。

📄️ 模型尺寸与显存估算

关于模型尺寸与显存估算的基础知识。

📄️ GPU 互联

多 GPU 部署中的 PCIe、NVLink、NVSwitch 和通信瓶颈。

📄️ 存储与模型加载

模型权重存储、加载速度、缓存目录和大模型启动时间相关知识。

📄️ 网络与集群

多机训练和推理集群中的网络、RDMA、InfiniBand、RoCE、通信瓶颈和部署排障。

📄️ 单机多卡

单机多 GPU 部署中的并行方式、显存分配和拓扑注意事项。

📄️ 硬件精度与算力

GPU 算力指标、Tensor Core、低精度计算和大模型性能的关系。

📄️ 硬件选型

根据训练、微调、推理、本地实验等场景选择硬件资源。

📄️ 硬件监控与排障

LLM 训练和推理中的 GPU、显存、温度、功耗和硬件故障排查。