跳到主要内容

2 篇文档带有标签「注意力机制」

查看所有标签

Attention 注意力机制

从“为什么需要”到 QKV、Self-Attention、Causal Attention、Multi-Head Attention 和 KV Cache,系统理解大语言模型中的注意力机制。

Transformer 架构

Transformer 的来历、经典 Encoder-Decoder 结构、核心计算流程,以及它为什么在学术和工程上都有效。