高级优化器设计
Advanced Optimizer Design
结合 Muon 正交化与 AdamW 的混合优化器,含融合内核与分布式支持
子问题
1.矩阵参数正交化(Polar Express)
2.方差归约(NorMuon)
3.参数分组与差异化学习率
4.torch.compile 融合避免 Python 开销
5.Cautious 权重衰减(仅梯度与参数同号时施加)
6.分布式 Muon 的参数 padding 与 buffer 复用
7.muP 风格跨模型尺寸的学习率迁移
8.Muon momentum 预热调度(0.85→0.95)
各项目的解法0 solutions
Signals
最佳实践
1.0-D CPU tensor 避免 torch.compile 重编译
2.同形状矩阵参数 stack 为 3D tensor 减少 kernel launch 次数
3.Polar Express 预计算系数替代运行时 Newton-Schulz 迭代
4.reduce_scatter 输入 buffer 复用为 all_gather 输出节省显存
5.权重衰减线性衰减到零配合 T_epoch 理论保持训练稳定