📄️ 工程化总览
用一条主线串起大模型工程化中的模型文件、Tokenizer、推理、服务架构、RAG、部署、监控和发布。
📄️ Tokenizer
大模型工程化中 Tokenizer 的作用、文件组成、常见算法和部署排障。
📄️ Chat Template
给模型拼提示词的格式模板。
📄️ 模型文件与格式
大模型工程化中常见模型文件、格式、目录结构和部署选择。
📄️ 推理参数
大模型推理中常见生成参数的含义、影响和工程配置建议。
📄️ 上下文管理
大模型应用中上下文窗口、历史消息、检索内容和截断策略的工程管理。
📄️ KV Cache
LLM 推理中 KV Cache 的作用、显存占用、并发影响和优化策略。
📄️ 流式输出
大模型服务中流式输出的协议、实现方式、延迟指标和前后端处理。
📄️ 并发与批处理
大模型推理服务中并发、批处理、吞吐和延迟之间的工程取舍。
📄️ 推理服务架构
大模型推理服务的核心组件、请求链路和常见部署架构。
📄️ 模型部署流程
从模型选择、格式转换、评估、压测到上线灰度的大模型部署流程。
📄️ 工具调用
大模型工具调用的请求格式、模型输出解析、执行闭环和工程风险。
📄️ RAG 工程化
RAG 系统从文档处理、索引、检索、重排到生成的工程链路。
📄️ 可观测性
大模型应用和推理服务的日志、指标、链路追踪和线上排障。
📄️ 容量与成本规划
大模型推理服务的 GPU 容量估算、成本拆解和资源规划方法。
📄️ 灰度发布与回滚
大模型服务上线中的灰度、A/B 测试、版本切换和回滚策略。