Hugging Face 推出 SmolVLA:4.5 亿参数开源机器人模型,MacBook Pro 轻松运行

SmolVLA:轻量级开源机器人模型登场

6 月 9 日消息,Hugging Face 最新公布了 4.5 亿参数的开源机器人模型 SmolVLA,主打高普适性,能够在 MacBook Pro 等消费级硬件设备上流畅运行。该模型旨在帮助开发者降低入门门槛,推动通用机器人智能体的研究进展。

VLA 设计理念与行业挑战

当前业界机器人模型普遍采用 “视觉 - 语言 - 行动”(Vision-Language-Action,VLA)设计,融合感知、语言理解与行动决策,实现复杂任务的自主执行。然而,这类模型训练成本高昂,多为闭源,依赖昂贵硬件和大量私有数据。SmolVLA 以开源轻量化为目标,采用公开数据集训练,打破了这一壁垒。

架构创新与关键优化技术

SmolVLA 结合 Transformer 结构与 flow-matching 解码器,采用四大优化技术:

 

  1. 跳过视觉模型一半层数,提升推理速度、减小模型体积;
  2. 交替融合自注意力与交叉注意力模块,提高多模态信息整合效率;
  3. 减少视觉 Token 数量,提升处理效率;
  4. 采用轻量视觉编码器 SmolVLM2,降低硬件需求。

训练策略与性能表现

SmolVLA 先通过通用操作数据预训练,再针对特定任务微调,尽管训练数据量远少于其他 VLA 模型(不到 3 万个任务记录),但在模拟环境和真实场景中表现不输大型模型,部分任务甚至实现 “超越”。

异步推理架构提升实用性

SmolVLA 引入 “异步推理架构”,将感知处理(视觉、语音理解)与动作执行解耦,使机器人在快速变化环境下能及时响应,大幅提升实用性。

低成本硬件友好,推动普及

用户可在 MacBook Pro 等消费级设备上运行 SmolVLA-450M,无需昂贵 AI 训练服务器。Hugging Face 还提供低成本机器人平台(SO-100、SO-101、LeKiwi)助力开发者降低成本。

性能基准与开源透明

Hugging Face 多项基准测试显示,SmolVLA 在 LIBERO、Meta-World 等模拟平台优于 Octo、OpenVLA 等竞品;在真实机器人抓取、放置、堆叠、分类任务中表现出色。基础模型已在 Hugging Face 平台上线,完整训练方法同步开源于 GitHub(https://huggingface.co/lerobot/smolvla_base)。

结论

SmolVLA 以其轻量化、高性能和开源特性,为机器人智能领域注入新活力。它不仅降低了开发门槛,还提升了机器人在真实环境中的实用性。未来,随着更多开发者的加入和技术完善,SmolVLA 有望成为推动通用机器人智能发展的重要力量。