硬件总览
这篇文章用一条主线把大模型硬件知识串起来。
它的目标不是讲完每个硬件细节,而是先建立判断框架:当我们说“这个模型能不能跑”“需要几张卡”“为什么吞吐上不去”“为什么显存爆了”时,应该看哪些硬件因素。
一句话来总结:
LLM 硬件 = 放得下模型 + 跑得动计算 + 传得动数据 + 扛得住并发。
展开就是:
- 显存容量和带宽
- CPU / 内存 / 存储
- GPU 算力
- GPU 互联和网络
- 推理框架调度
- 监控和排障
1. 先看 GPU / 加速卡
大模型训练和推理最核心的硬件通常是 GPU 或 AI 加速卡。
看 GPU 时不要只看“型号贵不贵”,至少要看:
- 显存容量。
- 显存带宽。
- 支持的计算精度,例如 FP16、BF16、FP8、INT8。
- Tensor Core / Matrix Core 能力。
- 多卡互联能力。
- 驱动、CUDA、推理框架支持情况。
对于 LLM 推理,显存容量和显存带宽经常比理论算力更直接影响体验。
对应阅读:
2. CPU 和系统内存不是不重要
虽然模型主体计算在 GPU 上,但 CPU 和系统内存仍然影响服务稳定性。
CPU 常参与:
- 请求解析。
- tokenizer。
- prompt 组装。
- 调度。
- 后处理。
- 日志和监控。
- RAG 检索链路。
系统内存常用于:
- 模型加载过程。
- CPU offload。
- 文件缓存。
- 多进程服务开销。
- 数据预处理。
如果 CPU 太弱、内存太小,即使 GPU 很强,也可能出现加载慢、请求排队、tokenizer 成为瓶颈等问题。
对应阅读:
3. 显存决定模型能不能放下
LLM 推理时,显存通常由几部分组成:
总显存 ≈ 权重显存 + KV Cache 显存 + 运行时开销 + 冗余空间
其中:
- 权重显存取决于模型参数量和精度。
- KV Cache 取决于上下文长度、并发数、层数和 KV heads。
- 运行时开销来自 CUDA、推理框架、临时 buffer 等。
一个常见误区是只看权重大小。例如 7B FP16 权重约 14GB,但真实服务还要留 KV Cache 和运行时空间,不代表 16GB 显卡一定能稳定承载高并发长上下文。
对应阅读:
4. 算力和精度决定跑得多快
GPU 厂商通常会标注 FP16、BF16、FP8、INT8 等不同精度下的理论算力。
但理论算力不等于实际吞吐。实际推理性能还受这些因素影响:
- 显存带宽。
- batch 大小。
- 输入输出 token 长度。
- kernel 优化。
- 推理框架调度。
- KV Cache 管理。
- 是否使用量化。
LLM 推理常常不是单纯“算力越高越快”。在小 batch、低并发、访存压力大的场景里,显存带宽和 kernel 效率可能更关键。
对应阅读:
5. 多卡不是简单相加
当单卡显存放不下模型,或者吞吐不够时,就会进入多卡部署。
多卡常见并行方式:
- Tensor Parallel。
- Pipeline Parallel。
- Data Parallel。
- Expert Parallel。
多卡带来更多资源,也带来通信成本。模型并不是自动因为有 4 张卡就快 4 倍。
需要关注:
- GPU 之间是 PCIe 还是 NVLink。
- 是否有 NVSwitch。
- GPU 拓扑是否均衡。
- 推理框架是否支持对应并行方式。
- 跨卡通信是否成为瓶颈。
对应阅读:
6. 存储影响模型启动和分发
模型权重很大。几十 GB 到数百 GB 的模型并不罕见。
存储会影响:
- 模型下载速度。
- 服务冷启动时间。
- 多副本模型分发。
- 容器镜像大小。
- 缓存目录管理。
本地 NVMe SSD、网络盘、对象存储、容器镜像打包模型,这些方案的启动速度和维护方式都不同。
对应阅读:
7. 多机集群看网络
单机多卡不够时,就需要多机 GPU 集群。
这时网络成为核心因素:
- Ethernet。
- InfiniBand。
- RDMA。
- RoCE。
- 跨节点带宽和延迟。
训练、MoE、跨节点 tensor parallel 对网络特别敏感。在线推理集群虽然不一定每个请求都跨节点切分模型,但负载均衡、模型分发、日志和监控也依赖网络稳定性。
对应阅读:
8. 硬件选型要从任务反推
不要先问“买哪张卡”,先问任务是什么。
不同场景关注点不同:
| 场景 | 优先关注 |
|---|---|
| 本地实验 | 成本、显存、生态兼容 |
| 单卡微调 | 显存容量、BF16/FP16 支持、内存 |
| 在线推理 | 显存、带宽、吞吐、稳定性、成本 |
| 长上下文服务 | KV Cache 容量、显存、调度能力 |
| 多模态模型 | 显存、图像预处理、视觉 encoder 开销 |
| 多机训练 | GPU 互联、网络、存储、可靠性 |
硬件选型的正确方式是:
模型规模 + 精度 + 上下文长度 + 并发 + 延迟目标 + 成本预算
-> 反推 GPU / 内存 / 存储 / 网络
对应阅读:
9. 监控和排障决定能不能长期稳定
模型能启动只是第一步。线上还要持续关注:
- GPU 利用率。
- 显存占用。
- 显存碎片。
- 温度。
- 功耗。
- ECC / Xid 错误。
- GPU 掉卡。
- OOM。
- PCIe / NVLink 异常。
硬件问题常常表现为模型服务问题,例如延迟抖动、请求超时、服务重启、吞吐下降。
对应阅读:
10. 推荐学习路径
建议按这个顺序学习硬件部分:
- GPU/加速卡:先知道核心计算硬件是什么。
- CPU 与内存:理解主机资源对服务的影响。
- 显存:理解模型为什么会 OOM。
- 模型尺寸与显存估算:学会粗算能不能放下。
- GPU 互联:理解多卡为什么需要高速互联。
- 存储与模型加载:理解模型启动和分发。
- 网络与集群:理解多机训练和推理集群。
- 单机多卡:理解常见多 GPU 部署方式。
- 硬件精度与算力:理解 FLOPS、FP8、INT8 等指标。
- 硬件选型:把前面的知识用于决策。
- 硬件监控与排障:让服务长期稳定运行。
11. 总结
LLM 硬件知识可以串成一条链:
模型大小
-> 权重显存
-> KV Cache
-> GPU 显存和带宽
-> 多卡互联
-> 存储和网络
-> 监控和排障
实际工程中,硬件不是孤立选择。模型结构、量化方式、上下文长度、并发、推理框架和业务延迟目标,都会共同决定硬件需求。
最实用的判断方式是:先用模型参数和精度估算权重,再用上下文和并发估算 KV Cache,最后结合推理框架压测结果确定硬件方案。