Attention

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (1)

Transformer 注意力机制入门

用直觉解释、数值例子和最小代码示例，真正理解 Q/K/V、缩放点积注意力与 Multi-Head 的工作方式。

难度入门 · 更新 2026/03/23

Transformer Attention 基础原理

学习路径 (1)

LLM 工程师 0-1 路径

面向希望进入大模型工程岗位的学习者，用 12 周时间从原理理解、训练认知走到推理部署与项目交付。

12 周 · 适合工程实践型学习者 · 更新 2026/03/23

Transformer Attention 训练工程推理优化

可视化模拟 (1)

Attention Sandbox

通过可调参数观察注意力权重如何变化，理解上下文聚焦行为。

已发布 · 更新 2026/03/17

Transformer Attention 可视化学习

论文 (2)

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

把注意力优化重点从 FLOPs 转向 IO，把“Exact Attention 也能大幅提速”变成现实，是现代训练和推理系统的关键基石之一。

2022 · arXiv

FlashAttention Attention 训练优化推理优化

Attention Is All You Need

提出 Transformer 架构，以纯注意力机制替代 RNN/CNN，重写了序列建模的工程范式与研究方向。

2017 · NeurIPS

Transformer Attention 架构位置编码