AMD 发布 ROCm 7 软件栈,AI 推理性能飙升最高 3.8 倍!

ROCm 7:AMD 开源软件栈升级大步前进

在今日凌晨的 AMD Advancing AI 2025 活动中,AMD 正式推出了其下一代开源软件栈技术 ROCm 7,旨在进一步提升 AI 性能和开发者生产力。ROCm 7 是对过去 ROCm 6 的重大升级,专注于满足 AI 计算日益增长的需求。

新功能亮点:高级算法与企业级支持

ROCm 7 引入了多项最新算法和模型,支持扩展 AI 高级功能,特别针对 MI350 系列 GPU 提供了 FP6 和 FP4 数据类型的支持。此外,ROCm 7 还强化了集群管理和企业级功能,满足大规模 AI 部署和运维需求。

推理性能飞跃,AI 工作负载加速明显

AMD 强调 ROCm 7 将推理能力作为核心优化方向,带来了显著的性能提升。官方数据显示,相比 ROCm 6,ROCm 7 在 AI 推理任务上性能提升高达 3.5 倍。具体来看,Llama 3.1 70B 模型性能提升 3.2 倍,Qwen2-72B 提升 3.4 倍,DeepSeek R1 更是提升 3.8 倍,展现出强劲的加速实力。

未来展望:多样化内核与优化工具

ROCm 7 将配备新内核和算法支持,包括 GEMM 自动调优、MoE(专家模型)、Attention 机制以及基于 Python 的内核编写,进一步丰富开发者工具箱,助力 AI 模型高效训练与推理。

结论

AMD 通过 ROCm 7 软件栈的发布,不仅实现了 AI 推理性能的跨越式提升,还为开发者带来了更丰富的功能和更强的灵活性。随着 MI350 系列 GPU 的强力支持和多项优化技术的加持,ROCm 7 将成为 AI 开发和部署的重要利器,推动 AI 应用进入新阶段。