跳到主要内容

推理服务架构

本文用于整理大模型推理服务的整体工程架构。

待展开内容:

  • API Gateway
  • 鉴权和限流
  • OpenAI-compatible API
  • prompt rendering
  • tokenizer
  • scheduler
  • model worker
  • GPU executor
  • streaming response
  • 多模型路由
  • 多副本和负载均衡
  • 推理服务与业务服务的边界