Scaling Laws 自动化

Scaling Laws Automation

基于 scaling laws 自动推导计算最优的训练超参数

子问题

1.训练 token 数与模型大小的最优比例

2.批大小随数据量的缩放

3.学习率与批大小的联动

4.权重衰减的 T_epoch 缩放

5.参考模型选择与经验最优值标定

6.Kaplan vs Chinchilla 参数计数方式对 scaling law 稳定性的影响

7.muP 风格学习率跨宽度迁移

8.批大小 clamp 到 2 的幂次对 GPU 效率的影响

Signals

维度	nanochat
复杂度旋钮	单一 depth 参数，所有超参自动推导
缩放公式	4 条链式公式：token ratio + Power Lines batch + √B LR + T_epoch WD
参考点策略	d12 为 reference model，经验最优值 + 理论外推
参数计数方式	Kaplan-style: transformer_matrices + lm_head（排除 embedding）
实验验证	320+ sweep 实验 + scaling laws 网格搜索 + miniseries 全系列验证
优化器感知	MuonAdamW 6 组差异化 LR/WD，muP 宽度缩放 ∝ 1/√d_model

1.单一 depth 旋钮控制所有超参数

2.用小参考模型（d12）快速 sweep 后通过理论公式外推到大模型

3.Kaplan-style 参数计数（排除 embedding）给出更稳定的 scaling law 指数

4.Power Lines D^0.383 幂律外推批大小，clamp 到 2 的幂次

5.T_epoch 框架联动缩放 weight decay 与 batch size 和训练 horizon