知识体系工程化知识推理服务架构推理服务架构 本文用于整理大模型推理服务的整体工程架构。 待展开内容: API Gateway 鉴权和限流 OpenAI-compatible API prompt rendering tokenizer scheduler model worker GPU executor streaming response 多模型路由 多副本和负载均衡 推理服务与业务服务的边界