LLM 基础 | AI-Basecamp

📄️ LLM 基础总览

用一条主线串起 Token、Embedding、Attention、Transformer、训练、微调、量化和评估等 LLM 基础知识。

从 token、logits、概率分布和 next token prediction 理解大语言模型的基本工作方式。

token embedding、embedding 矩阵和向量空间的基础概念。

从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache，系统理解大语言模型中的注意力机制。

Transformer 中位置编码的作用、常见方法和长上下文扩展中的注意点。

Transformer 的来历、经典 Encoder-Decoder 结构、核心计算流程，以及它为什么在学术和工程上都有效。

大语言模型从 logits 和概率分布生成文本时的基本流程、解码策略和参数影响。

MoE 架构的核心思想、专家路由、训练推理特点和大语言模型中的工程问题。

解释提示工程的基本概念、组成结构、常见方法、适用边界，以及它与 RAG、微调和 Agent 的关系。

解释大语言模型 Agent 的基本概念、意义、运行循环、系统构成，以及常见 Agent 开发框架。

多模态大模型的基本结构、输入表示、训练方式和工程化。

大语言模型预训练的目标、数据、训练方式和与后训练的区别。

解释语言模型训练中的交叉熵损失、困惑度和它们的适用边界。

解释基础模型如何通过指令微调变成能对话、能遵循任务的 Chat Model。

大模型微调的基础知识。

强化学习及其在大语言模型对齐和推理训练中的基础知识。

模型蒸馏的基础知识。

大模型量化的基础知识。

大语言模型幻觉的类型、成因、评估方法和缓解策略。

大语言模型质量评估的指标、方法、评估集设计和常见误区。

关于模型性能压测、指标的基础知识。