谷歌推出可浏览网页操作的 AI 模型 Gemini Computer Use,支持 13 种动作

 

AI大事记2025年10月8日消息,谷歌正式推出名为 Gemini 2.5 Computer Use 的 AI 模型,该模型可在浏览器环境中执行交互动作,包括填写表单、点击按钮、拖拽等共 13 种操作,目前已对开发者开放试用。 


🧩 模型定位、功能特色与接入方式

🛠 核心能力与支持动作

  • Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 架构的交互型模型,专注在网页 / 浏览器内模拟人类操作。 (blog.google)
  • 支持的 13 种操作 包括打开网页、输入文本、点击、拖拽、提交表单、滚动、导航前进后退等。 
  • 模型在多个网页 /移动端 benchmark 测试中表现优异,具备低延迟与高准确率。
  • 接入方式为 Gemini APIcomputer_use 工具接口,在 Google AI Studio 和 Vertex AI 平台上提供预览版权限。
  • Google 提供文档说明:模型输入包括用户意图 + 当前界面截图 + 最近操作历史,输出为函数调用(如 “click_at”,“type_text_at” 等) + 安全判断。
  • 当前阶段,模型暂仅限于浏览器操作,不支持操作桌面操作系统或文件级别操作。
  • 可用于对那些 没有公开 API,仅存在网页界面 的服务场景,例如自动填写注册 /申请表单、后台管理界面操作等。
  • 支持自动化测试 /UI 测试场景,让 AI 能“像人一样”操作页面以验证功能。
  • 可让智能体(Agent)更好地“落地”入用户的工作 /浏览流程:例如自动从网站获取信息、填写合同、提交表单。
  • Browserbase 提供可视化演示,可观看模型在网页上的实际操作流程。

📡 访问路径与开放方式

  • Gemini 2.5 Computer Use 模型目前已在 Google AI Studio 与 Vertex AI 向开发者提供预览访问权限。

  • 此外,Browserbase 平台已提供在线演示版本,用户可以实时观察模型如何执行网页任务(如浏览 Hacker News 热门、玩 2048 游戏等)。


🌐 多方视角 /行业对比 &补充解读

  • 在 The Verge 的报道中指出,Gemini 2.5 Computer Use 是谷歌在 agent /智能体方向的重要补足,它让 AI 不只是“说”还能“做”。
  • 与 OpenAI / Anthropic 等竞争对手相比,谷歌的版本目前聚焦于浏览器环境的交互,而非整个操作系统控制,这在安全 /权限上有其保守设计。 
  • 在 AI agent 领域,之前有项目(如 Google 的 Project Mariner)就尝试让 AI 模型自动在网页界面“动手”,此次 Gemini Computer Use 可被视作这种理念的产品化。 
  • 在 Google 官方博客中,模型被宣传可降低网页操作的延迟、提升鲁棒性,并强调其在多个 benchmark 上领先。 
  • 在 AI 智能体 / agent 研究方向,Anthropic 去年就推出了 Claude 的 “Computer Use” 版本,谷歌推出 Gemini 的“浏览器交互”版本,是这一赛道的重要竞争的一步。

  • 此前,Google 内部研发项目 “Mariner” 就尝试让模型在网页中自动执行任务,例如根据食材清单在电商平台自动下单。Gemini 2.5 Computer Use 的发布可能是 Mariner 思路的产品化体现。


⚠ 风险 /挑战 /关键观察点(SEO 关键词含)

方向风险 / 不确定性
误操作 / 安全风险AI 在网页上操作若误点或提交错误表单,可能泄露隐私 / 执行错误操作,需要严控权限 / 确认机制。
兼容性 / 网页结构适配网页结构多变,Model 需适配各种 DOM / JS 动态内容,否则操作失败率高。
滥用 / 自动化攻击若模型被恶意用于爬虫 / 刷单 / 脚本攻击,可能成为安全隐患。
性能 / 延迟 / 成本浏览器操作比纯文本推理复杂,模型在高并发 / 批量操作下的性能与费用控制是挑战。
界面限制 / 权限隔离浏览器对跨域 / 脚本限制较多,模型在受限环境下处理能力可能受限。

🧠 总结 / 思考

核心回顾

  • 谷歌推出 Gemini 2.5 Computer Use 模型,专攻浏览器交互,让 AI 智能体能够“自己动手”操作网页。
  • 模型支持 13 种操作,接入方式为 Gemini API 的 computer_use 工具接口,目前在 Google AI Studio / Vertex AI 平台提供试用访问。
  • 这款模型在网页 /移动端 benchmark 上表现优异,是谷歌在智能体 /agent 方向的关键落地步骤。

值得思考 /我的疑问

  • AI 操作网页是否可能替代部分人类在浏览 /表单 /后台操作的工作?
  • 在安全 /隐私边界上,如何设计权限 /确认 /回滚机制,避免误操作?
  • 若网页结构频繁变化,模型如何自动适配?
  • 未来是否会扩展到桌面 /系统级交互(如文件操作、窗口管理)?

金句送给你

“回答告诉你道路,操作帮你走完全程;当 AI 能在网页里行动,它才不只是助手,而是伙伴。”