问题域/PD-428

Scaling Laws 自动化

Scaling Laws Automation

基于 scaling laws 自动推导计算最优的训练超参数

子问题

1.训练 token 数与模型大小的最优比例

2.批大小随数据量的缩放

3.学习率与批大小的联动

4.权重衰减的 T_epoch 缩放

5.参考模型选择与经验最优值标定

6.Kaplan vs Chinchilla 参数计数方式对 scaling law 稳定性的影响

7.muP 风格学习率跨宽度迁移

8.批大小 clamp 到 2 的幂次对 GPU 效率的影响

各项目的解法1 solutions

Signals

横向对比

维度nanochat
复杂度旋钮单一 depth 参数,所有超参自动推导
缩放公式4 条链式公式:token ratio + Power Lines batch + √B LR + T_epoch WD
参考点策略d12 为 reference model,经验最优值 + 理论外推
参数计数方式Kaplan-style: transformer_matrices + lm_head(排除 embedding)
实验验证320+ sweep 实验 + scaling laws 网格搜索 + miniseries 全系列验证
优化器感知MuonAdamW 6 组差异化 LR/WD,muP 宽度缩放 ∝ 1/√d_model

最佳实践

1.单一 depth 旋钮控制所有超参数

2.用小参考模型(d12)快速 sweep 后通过理论公式外推到大模型

3.Kaplan-style 参数计数(排除 embedding)给出更稳定的 scaling law 指数

4.Power Lines D^0.383 幂律外推批大小,clamp 到 2 的幂次

5.T_epoch 框架联动缩放 weight decay 与 batch size 和训练 horizon