2 篇文档带有标签「注意力机制」

Attention 注意力机制

从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache，系统理解大语言模型中的注意力机制。

Transformer 的来历、经典 Encoder-Decoder 结构、核心计算流程，以及它为什么在学术和工程上都有效。