跳到主要内容

CPU 与内存

本文用于整理大模型部署中 CPU 和系统内存的基础知识。

待展开内容:

  • CPU 在推理服务中的作用
  • tokenizer、请求处理、调度和后处理的 CPU 开销
  • 系统内存和模型加载
  • CPU offload
  • NUMA
  • PCIe root complex
  • CPU 推理与 GPU 推理的区别
  • 内存带宽对本地推理的影响
  • CPU / 内存选型建议