跳到主要内容

2 篇文档带有标签「Self-Attention」

查看所有标签

Transformer 架构

Transformer 架构的核心组件、计算流程和大语言模型中的常见变体。

注意力机制

用直觉、例子和公式解释大语言模型中的注意力机制。