GPU/加速卡

适用范围

本文作为 AI 硬件基础速查，重点面向模型训练、推理和部署场景。架构发布时间按 NVIDIA 公开发布节点粗略记录，具体型号和规格以厂商文档为准。

1. 基础

1.1 基本概念

GPU(Graphics Processing Unit 图形处理器)

1.2 分类

iGPU (Integrated Graphics Processing Unit 集成显卡)：运作时会借用部分的系统存储器
dGPU (Discrete Graphics Processing Unit 独立显卡)：指卡内的RAM只会被该卡专用

2. GPU/加速卡

2.1 结构单元

GPU 可以分为三个逻辑结构：

计算: 决定算得快不快
存储: 决定模型和 KV Cache 能不能放下
通信: 决定多卡/多机协作效率。

2.2 计算部分

计算部分主要看 GPU 对深度学习算子的支持，而不是只看 CUDA Core 数量。
LLM 训练和推理更依赖矩阵乘法能力、混合精度支持和框架适配。

概念	说明	关注点
CUDA Core	通用并行计算核心，适合图形、向量和通用并行计算。	不是 LLM 性能的唯一指标。
Tensor Core	面向矩阵乘法和深度学习算子的专用核心。	LLM 更关注 Tensor Core 在 FP16、BF16、FP8、INT8、INT4 等精度下的吞吐。
CUDA	NVIDIA 的通用并行计算平台和编程模型。	PyTorch、TensorFlow、vLLM、TensorRT-LLM 等生态通常优先支持 CUDA。
Transformer Engine	面向 Transformer 模型的加速能力。	Hopper 之后更重要，常和 FP8、混合精度训练/推理相关。

2.3 存储部分

存储部分主要看显存容量和显存带宽。
对 LLM 推理来说，显存不只放模型权重，还要放 KV Cache、CUDA workspace 和框架运行时开销。

概念	说明	关注点
显存容量	GPU 上可用的显存大小。	决定能否放下模型权重、KV Cache 和运行时开销。
显存带宽	GPU 访问显存的速度。	大模型推理通常对显存带宽敏感，尤其是 batch 较小或访存压力大的场景。
HBM	高带宽显存，常见于数据中心训练/推理卡。	H100、H200、B200、A100 等常用 HBM。
GDDR	图形显存，常见于消费级或部分工作站/推理卡。	RTX 4090、L4、L40S 等常见于开发、视觉和推理场景。
SRAM / Cache	芯片内部高速缓存。	提升数据复用效率，通常不作为用户选型的显式容量指标。

2.4 通信部分

通信部分主要看 GPU 与 GPU、GPU 与主机、节点与节点之间的数据通道。
模型越大、并行越多，通信越容易成为瓶颈。

概念	说明	常见场景
PCIe	通用主机与设备互联。	CPU 与 GPU 数据传输、普通服务器扩展、单机多卡基础互联。
NVLink	NVIDIA GPU 间高速互联。	多卡训练、大模型并行、跨 GPU 通信密集任务。
NVSwitch	多 GPU NVLink 交换结构。	HGX、DGX、NVL 等高密度 GPU 系统。
RoCE / InfiniBand	多机 GPU 集群常用网络。	跨节点训练、跨节点推理、参数同步和大规模集群通信。
HCCS	华为昇腾等加速卡间互联技术。	昇腾集群训练/推理场景。

3. 参数

看 GPU 规格时，建议优先关注下面这些参数。
（不同厂商、不同资料里的命名可能略有差异，但含义基本接近。）

参数名称	意义	单位	举例	备注
显存容量	单卡可用于存放模型权重、KV Cache 和运行时缓存的空间。	GB / GiB	24GB、48GB、80GB、141GB	LLM 推理时最先关注；显存不够时模型可能无法加载或并发受限。
显存带宽	GPU 读写显存的速度。	GB/s、TB/s	1TB/s、3TB/s、4.8TB/s	对大模型推理很重要，尤其是访存瓶颈明显时。
显存类型	GPU 使用的显存技术。	-	GDDR6、GDDR6X、HBM2e、HBM3、HBM3e	HBM 通常用于数据中心高端卡，带宽更高；GDDR 常见于消费级和部分推理卡。
算力	某种精度下的理论计算能力。	TFLOPS、TOPS	FP16 TFLOPS、BF16 TFLOPS、FP8 TFLOPS、INT8 TOPS	必须看对应精度；FP32 高不代表 LLM 推理一定强。
支持精度	GPU 支持的数值格式。	-	FP32、TF32、FP16、BF16、FP8、INT8、INT4	训练常看 BF16/FP8；推理常看 FP16/BF16/FP8/INT8/INT4。
TDP / 功耗	单卡典型或最大功耗。	W	70W、300W、700W	影响机房供电、散热和整机部署密度。
GPU 间互联	GPU 与 GPU 之间的高速互联能力。	GB/s、TB/s	NVLink、NVSwitch	多卡训练、张量并行和大模型推理更依赖它。
PCIe 规格	GPU 与主机之间的 PCIe 连接能力。	代际 / 通道数	PCIe 4.0 x16、PCIe 5.0 x16	影响 CPU-GPU 数据传输和普通多卡服务器扩展能力。
单卡形态	GPU 的硬件封装和部署形态。	-	PCIe、SXM、OAM	SXM/HGX 类形态通常互联和散热更强；PCIe 更通用。
驱动与软件栈	驱动、CUDA、框架和推理引擎的兼容情况。	版本号	CUDA 12.x、Driver 550.x、vLLM、TensorRT-LLM	生产部署要确认驱动、框架、模型和量化方式是否兼容。

4. 架构

4.1 NVIDIA Architecture

架构	发行时间	代表型号	备注
Blackwell	2024-03	B200、GB200	面向生成式 AI 和大规模训练/推理，强调 Transformer 性能、NVLink/NVL 系统和能效。
Hopper	2022-03	H100、H200、H800、H20	数据中心 AI 主力架构，引入 Transformer Engine，常用于 LLM 训练和推理。
Ada Lovelace	2022-09	L4、L40、L40S、RTX 6000 Ada、GeForce RTX 40 系列	覆盖图形、视频、推理和工作站场景；L4/L40 系列常用于推理和视觉任务。
Ampere	2020	A100、A10、A30、A40、GeForce RTX 30 系列	A100 是上一代数据中心训练/推理常见卡；消费级 RTX 30 常用于开发和小规模推理。
Turing	2018	T4、RTX 20 系列、Quadro RTX	T4 曾是云上推理常见选择，适合轻量推理和视频转码。
Volta	2017	V100	较早的数据中心深度学习主力卡，支持 Tensor Core。
Pascal	2016	P100、P40、P4、GeForce GTX 10 系列	现在更多见于存量环境，不适合优先采购用于新 LLM 工作负载。
Maxwell 及更早	2014 及以前	M40、M60、K80 等	主要是历史架构，现代 AI 框架和算子支持有限。

4.2 Ascend Architecture

架构 / 系列	发行时间	代表型号	备注
Ascend 950 / 960 / 970	路线图	Ascend 950PR、Ascend 950DT 等	属于后续路线图信息，适合关注生态和规划，不宜当作已普遍可采购型号处理。
Ascend 910C	2025 左右	Ascend 910C	华为公开演讲中提到已随 Atlas 900 A3 SuperPoD 扩大部署，常被视为 910 系列后续增强版本。
Ascend 910B	2023 左右	Ascend 910B	面向训练和推理的主力型号之一，国内大模型训练/推理集群中较常见。
Ascend 310P	2021 左右	Ascend 310P	面向推理场景，常见于 Atlas 推理卡和边缘/中心侧推理部署。
Da Vinci / Ascend 910	2019	Ascend 910	面向数据中心训练，公开发布时与 MindSpore 一起作为全栈 AI 方案推出。
Da Vinci / Ascend 310	2018	Ascend 310	面向边缘推理和低功耗 AI 场景，是华为 Ascend 系列较早公开发布的推理芯片。

Ascend 生态选型时，除了芯片本身，还要关注 CANN、MindSpore、PyTorch 适配、算子覆盖、模型迁移成本和集群互联能力。和 NVIDIA CUDA 生态相比，Ascend 更需要提前验证具体模型、推理框架和算子是否支持。

5. 选型

场景	优先关注
单机开发 / 实验	显存容量、CUDA 支持、驱动兼容、成本。
LLM 推理	显存容量、显存带宽、Tensor Core 精度支持、KV Cache 容量、多并发吞吐。
LLM 训练 / 微调	显存容量、GPU 间互联、BF16/FP8 能力、分布式训练框架支持。
多模态 / 视频	编解码能力、显存带宽、推理吞吐、图像/视频预处理链路。
多机集群	NVLink/NVSwitch、PCIe、RoCE/InfiniBand、网络拓扑和调度系统。

简单判断：

计算：看 Tensor Core、数值精度和框架支持。
存储：看显存容量和显存带宽，LLM 推理要额外关注 KV Cache。
通信：看 PCIe、NVLink、NVSwitch 和多机网络。
生产部署：看整机形态、供电、散热、驱动和软件栈，不只看单卡规格。

6. 常用命令

# lspci
sudo yum install pciutils
lspci | grep -i vga

# lshw
sudo lshw -C display

# smi
## nvidia-smi
sudo yum install nvidia-driver
nvidia-smi
## npu-smi
npu-smi info


# lsmod
lsmod | grep nvidia


# pip install nvitop
nvitop

1. 基础​

1.1 基本概念​

1.2 分类​

2. GPU/加速卡​

2.1 结构单元​

2.2 计算部分​

2.3 存储部分​

2.4 通信部分​

3. 参数​

4. 架构​

4.1 NVIDIA Architecture​

4.2 Ascend Architecture​

5. 选型​

6. 常用命令​

参考​

GPU​

NVIDIA​

Ascend​