用一条主线串起大模型工程化中的模型文件、Tokenizer、推理、服务架构、RAG、部署、监控和发布。
大模型推理服务的核心组件、请求链路和常见部署架构。
从模型选择、格式转换、评估、压测到上线灰度的大模型部署流程。