Transformer 注意力机制入门 用最小示例理解 Q/K/V、缩放点积注意力、Multi-Head 的直觉和计算流程。 难度 入门 · 更新 2026/03/17 Transformer Attention 基础原理
Attention Is All You Need 提出 Transformer 架构,以纯注意力机制替代循环结构,显著提升并行训练能力。 2017 · NeurIPS Transformer Attention 架构