Attention 注意力机制
从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache,系统理解大语言模型中的注意力机制。
从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache,系统理解大语言模型中的注意力机制。
Transformer 的来历、经典 Encoder-Decoder 结构、核心计算流程,以及它为什么在学术和工程上都有效。