2 月 24 日消息,月之暗面 Kimi 昨日发布了 “Muon 可扩展用于 LLM 训练” 的新技术报告,并宣布推出 “Moonlight”:一个在 Muon 上训练的 30 亿 / 160 亿参数混合专家模型(MoE)。该模型使用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下实现了更好的性能,从而提升了帕累托效率边界。
月之暗面团队发现,Muon 优化器可通过添加权重衰减、仔细调整每个参数的更新幅度等技术进行扩展,具备以下亮点:
- Muon 能够在大规模训练中开箱即用,无需进行超参数调优。
- 扩展法则实验表明,与计算最优训练的 AdamW 相比,Muon 实现了约 2 倍的计算效率。
此次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B。该模型使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得了显著成绩。模型不仅突破了当前的 Pareto 前沿,还在训练所需的 FLOP 数大幅减少的情况下,达到了比以往模型更优的性能。
月之暗面团队开源了一个分布式版本的 Muon 实现,优化了内存使用和通信效率。同时,团队还发布了预训练模型、经过指令调优的模型以及中间训练检查点,旨在为未来的研究提供支持。
月之暗面发布的 Muon 优化器与 Moonlight 模型,展示了在更低的浮点运算次数下实现更优性能的可能性。Muon 优化器通过权重衰减和参数更新幅度调整等技术,实现了开箱即用的高效训练。Moonlight 模型在突破当前 Pareto 前沿的同时,显著减少了训练所需的 FLOP 数。团队还开源了分布式版本的 Muon 实现,并发布了预训练模型和训练检查点,为未来的研究提供了有力支持。