📄️ LLM 基础总览
用一条主线串起 Token、Embedding、Attention、Transformer、训练、微调、量化和评估等 LLM 基础知识。
📄️ Token 与概率
从 token、logits、概率分布和 next token prediction 理解大语言模型的基本工作方式。
📄️ Embedding 向量化
token embedding、embedding 矩阵和向量空间的基础概念。
📄️ Attention 注意力机制
从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache,系统理解大语言模型中的注意力机制。
📄️ Position Embedding 位置编码
Transformer 中位置编码的作用、常见方法和长上下文扩展中的注意点。
📄️ Transformer 架构
Transformer 的来历、经典 Encoder-Decoder 结构、核心计算流程,以及它为什么在学术和工程上都有效。
📄️ 解码与生成
大语言模型从 logits 和概率分布生成文本时的基本流程、解码策略和参数影响。
📄️ MoE 架构
MoE 架构的核心思想、专家路由、训练推理特点和大语言模型中的工程问题。
📄️ Prompt Engineering 提示工程
解释提示工程的基本概念、组成结构、常见方法、适用边界,以及它与 RAG、微调和 Agent 的关系。
📄️ Agent 智能体
解释大语言模型 Agent 的基本概念、意义、运行循环、系统构成,以及常见 Agent 开发框架。
📄️ MLLM 多模态大语言模型
多模态大模型的基本结构、输入表示、训练方式和工程化。
📄️ Pretraining 预训练
大语言模型预训练的目标、数据、训练方式和与后训练的区别。
📄️ 困惑度与损失函数
解释语言模型训练中的交叉熵损失、困惑度和它们的适用边界。
📄️ 指令跟随
解释基础模型如何通过指令微调变成能对话、能遵循任务的 Chat Model。
📄️ 微调
大模型微调的基础知识。
📄️ 强化学习
强化学习及其在大语言模型对齐和推理训练中的基础知识。
📄️ 蒸馏
模型蒸馏的基础知识。
📄️ 量化
大模型量化的基础知识。
📄️ 幻觉
大语言模型幻觉的类型、成因、评估方法和缓解策略。
📄️ 质量与评估
大语言模型质量评估的指标、方法、评估集设计和常见误区。
📄️ 模型性能
关于 模型性能压测、指标 的基础知识。