工程化知识 | AI-Basecamp

📄️ 工程化总览

用一条主线串起大模型工程化中的模型文件、Tokenizer、推理、服务架构、RAG、部署、监控和发布。

大模型工程化中 Tokenizer 的作用、文件组成、常见算法和部署排障。

给模型拼提示词的格式模板。

大模型工程化中常见模型文件、格式、目录结构和部署选择。

大模型推理中常见生成参数的含义、影响和工程配置建议。

大模型应用中上下文窗口、历史消息、检索内容和截断策略的工程管理。

LLM 推理中 KV Cache 的作用、显存占用、并发影响和优化策略。

大模型服务中流式输出的协议、实现方式、延迟指标和前后端处理。

大模型推理服务中并发、批处理、吞吐和延迟之间的工程取舍。

大模型推理服务的核心组件、请求链路和常见部署架构。

从模型选择、格式转换、评估、压测到上线灰度的大模型部署流程。

大模型工具调用的请求格式、模型输出解析、执行闭环和工程风险。

RAG 系统从文档处理、索引、检索、重排到生成的工程链路。

大模型应用和推理服务的日志、指标、链路追踪和线上排障。

大模型推理服务的 GPU 容量估算、成本拆解和资源规划方法。

大模型服务上线中的灰度、A/B 测试、版本切换和回滚策略。