DMX
大模型算法知识平台
首页
学习教程
学习路径
可视化模拟
论文雷达
算法专题
搜索
关于
大模型训练流水线总览
从数据清洗、预训练、对齐训练到评测,建立完整训练工程认知框架。
难度
进阶
阅读时长
约 70 分钟
更新日期
2026/03/16
主题
训练工程 / SFT / RLHF
先修知识
深度学习基础
GPU 训练常识
阶段划分
数据准备
预训练
指令微调(SFT)
偏好对齐(RLHF/DPO)
评测与安全审查
工程重点
数据质量比数据量更关键
训练监控需要覆盖 loss、吞吐、稳定性
对齐阶段要单独设计评测集