Attention Sandbox

通过可调参数观察注意力权重如何变化，理解上下文聚焦行为。

核心概念

缩放点积注意力可视化

难度

入门

状态

已发布

阅读时长

约 1 分钟

更新日期

2026/03/17

交互仿真

直接动手调参，观察变量变化与行为差异。

Attention Sandbox

调节参数，观察不同 token 之间的注意力权重如何变化。

Token 数量 6 向量维度 8 温度系数 1.0 观察 Query

Token 序列（逗号分隔）

注意力矩阵（Q -> K）

当前 Query 的权重分布

关联主题

Transformer Attention 可视化学习

模拟目标

观察不同 query 与 key 对齐后的权重变化
对比温度系数对分布尖锐程度的影响

交互参数

Token 数量
向量维度
温度系数
Query 观察索引

建议实验

固定 token 和维度，降低温度，观察分布是否更尖锐。
固定温度，提升维度，观察权重是否更平滑。
修改 token 序列并重新采样，比较不同语义排列的注意力变化。

配套内容

建议配合这些教程、路径和论文一起学习，理解会更连贯。

位置编码详解（绝对 → 相对 → RoPE）

从“模型为什么需要顺序感”讲到绝对位置、相对位置与 RoPE，建立长上下文位置建模的统一直觉。

教程 · 进阶 · 110 分钟

位置编码 RoPE 长上下文 Transformer

Transformer 注意力机制入门

用直觉解释、数值例子和最小代码示例，真正理解 Q/K/V、缩放点积注意力与 Multi-Head 的工作方式。

教程 · 入门 · 90 分钟

Transformer Attention 基础原理

LLM 工程师 0-1 路径

面向希望进入大模型工程岗位的学习者，用 12 周时间从原理理解、训练认知走到推理部署与项目交付。

路径 · 12 周 · 工程实践型学习者

Transformer Attention 训练工程推理优化

LLM 研究者进阶路径

面向具备基础的大模型研究者，用 16 周建立论文图谱、复现实验、评测设计与研究写作的完整工作流。

路径 · 16 周 · 研究导向型学习者

Transformer 架构评测长上下文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

用 MLM 与 NSP 把双向 Transformer 预训练推向主流，重塑了 NLP 从预训练到下游微调的默认范式。

论文 · 2018 · NAACL

BERT 预训练 Transformer NLP

LLaMA: Open and Efficient Foundation Language Models

用更克制的参数规模、更长的训练 token 和一组细致的架构改造，证明开源基座模型也能逼近闭源大模型能力。

论文 · 2023 · arXiv

LLaMA 开源模型训练策略 Transformer