全栈 LLM 训练流水线
Full-Stack LLM Training Pipeline
从 tokenizer 到 Web 聊天的端到端 LLM 训练与部署流水线
子问题
1.阶段间超参数继承
2.SFT 数据混合策略
3.GRPO 简化 RL 训练
4.模型服务与 Web UI
5.Scaling Laws 驱动的自动超参数计算
6.BOS-Bestfit 零浪费序列打包
7.统一评估指标 ChatCORE 的设计
8.训练报告自动生成与成本估算
各项目的解法1 solutions
Signals
横向对比
| 维度 | nanochat |
|---|---|
| 流水线阶段数 | 6 阶段线性:tok→pretrain→SFT→RL→eval→web |
| 编排方式 | 单 Bash 脚本 speedrun.sh 串行编排全流程 |
| 超参数传递 | checkpoint meta.json 携带 user_config,SFT 自动继承 |
| RL 方法 | 极简 GRPO:删除 trust region/PPO clip/KL,退化为 REINFORCE |
| 评估框架 | ChatCORE:6 任务 centered mean accuracy,0-1 统一度量 |
| 数据打包 | BOS-Bestfit:best-fit 算法打包对话,padding 不截断 |
| 模型服务 | FastAPI + SSE + WorkerPool 多 GPU 数据并行推理 |
| 报告系统 | Report 类收集每阶段结构化数据,生成 Markdown 报告卡 |
最佳实践
1.speedrun.sh 一键编排全流程实现可复现训练
2.checkpoint meta.json 携带 user_config 实现跨阶段超参数继承
3.TaskMixture 确定性 shuffle + 重复传入实现过采样
4.删除 PPO 四大组件简化 RL 为 REINFORCE + mean advantage
5.GC 手动管理避免训练中 500ms 暂停