Transformer 注意力机制入门
用最小示例理解 Q/K/V、缩放点积注意力、Multi-Head 的直觉和计算流程。
Large Model Algorithms
DMXSF 聚焦大模型算法全链路:学习教程帮助你建立知识底座,学习路径给出阶段性目标,可视化模拟让原理变得可观察,论文雷达持续跟踪前沿动态。
结构化教程覆盖数学基础、训练工程、推理优化与评测安全。
按角色推荐学习路线,避免盲目刷资料。
通过参数控制、过程动画和变量面板理解抽象机制。
追踪经典与前沿论文,提炼问题定义、核心方法和实践启发。