你将学到什么 为什么需要注意力机制 单头注意力的计算步骤 多头注意力为何能提升表达能力 一个直觉 可以把注意力看作“让每个 token 决定要听谁说话”。 最小公式 Attention(Q, K, V) = softmax(QK^T / sqrt(d_k))V 学完后建议 继续学习位置编码与 RoPE,然后进入完整 Transformer Block。