问题域/PD-422

全栈 LLM 训练流水线

Full-Stack LLM Training Pipeline

从 tokenizer 到 Web 聊天的端到端 LLM 训练与部署流水线

子问题

1.阶段间超参数继承

2.SFT 数据混合策略

3.GRPO 简化 RL 训练

4.模型服务与 Web UI

5.Scaling Laws 驱动的自动超参数计算

6.BOS-Bestfit 零浪费序列打包

7.统一评估指标 ChatCORE 的设计

8.训练报告自动生成与成本估算

各项目的解法1 solutions

Signals

横向对比

维度	nanochat
流水线阶段数	6 阶段线性：tok→pretrain→SFT→RL→eval→web
编排方式	单 Bash 脚本 speedrun.sh 串行编排全流程
超参数传递	checkpoint meta.json 携带 user_config，SFT 自动继承
RL 方法	极简 GRPO：删除 trust region/PPO clip/KL，退化为 REINFORCE
评估框架	ChatCORE：6 任务 centered mean accuracy，0-1 统一度量
数据打包	BOS-Bestfit：best-fit 算法打包对话，padding 不截断
模型服务	FastAPI + SSE + WorkerPool 多 GPU 数据并行推理
报告系统	Report 类收集每阶段结构化数据，生成 Markdown 报告卡

最佳实践

1.speedrun.sh 一键编排全流程实现可复现训练

2.checkpoint meta.json 携带 user_config 实现跨阶段超参数继承

3.TaskMixture 确定性 shuffle + 重复传入实现过采样

4.删除 PPO 四大组件简化 RL 为 REINFORCE + mean advantage

5.GC 手动管理避免训练中 500ms 暂停