Scaling Laws 自动化
Scaling Laws Automation
基于 scaling laws 自动推导计算最优的训练超参数
子问题
1.训练 token 数与模型大小的最优比例
2.批大小随数据量的缩放
3.学习率与批大小的联动
4.权重衰减的 T_epoch 缩放
5.参考模型选择与经验最优值标定
6.Kaplan vs Chinchilla 参数计数方式对 scaling law 稳定性的影响
7.muP 风格学习率跨宽度迁移
8.批大小 clamp 到 2 的幂次对 GPU 效率的影响
各项目的解法1 solutions
Signals
横向对比
| 维度 | nanochat |
|---|---|
| 复杂度旋钮 | 单一 depth 参数,所有超参自动推导 |
| 缩放公式 | 4 条链式公式:token ratio + Power Lines batch + √B LR + T_epoch WD |
| 参考点策略 | d12 为 reference model,经验最优值 + 理论外推 |
| 参数计数方式 | Kaplan-style: transformer_matrices + lm_head(排除 embedding) |
| 实验验证 | 320+ sweep 实验 + scaling laws 网格搜索 + miniseries 全系列验证 |
| 优化器感知 | MuonAdamW 6 组差异化 LR/WD,muP 宽度缩放 ∝ 1/√d_model |
最佳实践
1.单一 depth 旋钮控制所有超参数
2.用小参考模型(d12)快速 sweep 后通过理论公式外推到大模型
3.Kaplan-style 参数计数(排除 embedding)给出更稳定的 scaling law 指数
4.Power Lines D^0.383 幂律外推批大小,clamp 到 2 的幂次
5.T_epoch 框架联动缩放 weight decay 与 batch size 和训练 horizon