英伟达近日发布了 Llama-Nemotron 系列模型,正式超越 DeepSeek-R1,并宣布这些模型已经全部开源。这一系列模型不仅在推理吞吐量和内存效率上显著超越 DeepSeek-R1,更是在业界引起了不小的轰动。
英伟达在技术报告中揭秘了模型训练的关键 —— 利用合成数据监督微调和强化学习,全面提升模型的推理能力。整个构建过程分为五个阶段:
第一阶段:利用神经架构搜索(NAS)在 Llama 3 系列模型基础上优化推理效率,并引入前馈网络融合(FFN Fusion)。
第二阶段:通过知识蒸馏和继续预训练来恢复模型性能。
第三阶段:进行有监督微调(SFT),结合标准指令数据和来自 DeepSeek-R1 等强大教师模型的推理过程,从而让模型具备多步骤推理能力。
第四阶段:在复杂的数学和 STEM 数据集上进行大规模强化学习,这是学生模型能够超越教师模型能力的关键一步。对于 LN-Ultra,这一阶段在 GPQA-D 基准测试上带来了显著性能提升,确立其作为当前开源领域科学推理最强模型的地位。
为了支持如此大规模的强化学习训练,团队专门开发了新的训练框架,包含多项优化措施,其中最重要的是支持 FP8 精度的生成能力。
第五阶段:简短的对齐训练,重点在于指令跟随和符合人类偏好。
英伟达推出了 Llama-Nemotron 系列三个模型 ——LN-Nano 8B、LN-Super 49B 和 LN-Ultra 253B。值得一提的是,LN-Ultra 不仅在性能上超越了 DeepSeek-R1,还能在单个 8xH100 节点上运行,推理吞吐量更高。
这些模型针对高吞吐量推理进行了优化,同时保持强大的推理能力和最多 128K 的上下文长度。并且,英伟达首次推出了推理开关功能,用户只需通过系统提示词 “detailed thinking on /off” 就可以动态切换标准聊天模式和推理模式。这种设计让模型既能满足日常通用需求,也能胜任复杂的多步骤推理,无需使用不同的模型或架构。
英伟达的 Llama-Nemotron 系列模型通过多阶段的优化和创新,显著提升了推理能力和效率,超越了 DeepSeek-R1,并在全球 AI 开源界引发了轰动。其全新的架构设计和推理开关功能,使得这些模型能够在多种应用场景中表现出色,满足不同需求。随着这些模型的全面开源,AI 领域的技术进步和应用创新将迎来新的高峰。