谷歌推出可浏览网页操作的 AI 模型 Gemini Computer Use，支持 13 种动作

AI大事记2025年10月8日消息，谷歌正式推出名为 Gemini 2.5 Computer Use 的 AI 模型，该模型可在浏览器环境中执行交互动作，包括填写表单、点击按钮、拖拽等共 13 种操作，目前已对开发者开放试用。

🧩 模型定位、功能特色与接入方式

Gemini 2.5 Computer Use 是基于 Gemini 2.5 Pro 架构的交互型模型，专注在网页 / 浏览器内模拟人类操作。 (blog.google)
支持的 13 种操作 包括打开网页、输入文本、点击、拖拽、提交表单、滚动、导航前进后退等。
模型在多个网页 /移动端 benchmark 测试中表现优异，具备低延迟与高准确率。
接入方式为 Gemini API 的 computer_use 工具接口，在 Google AI Studio 和 Vertex AI 平台上提供预览版权限。
Google 提供文档说明：模型输入包括用户意图 + 当前界面截图 + 最近操作历史，输出为函数调用（如 “click_at”，“type_text_at” 等） + 安全判断。
当前阶段，模型暂仅限于浏览器操作，不支持操作桌面操作系统或文件级别操作。

在 The Verge 的报道中指出，Gemini 2.5 Computer Use 是谷歌在 agent /智能体方向的重要补足，它让 AI 不只是“说”还能“做”。
与 OpenAI / Anthropic 等竞争对手相比，谷歌的版本目前聚焦于浏览器环境的交互，而非整个操作系统控制，这在安全 /权限上有其保守设计。
在 AI agent 领域，之前有项目（如 Google 的 Project Mariner）就尝试让 AI 模型自动在网页界面“动手”，此次 Gemini Computer Use 可被视作这种理念的产品化。
在 Google 官方博客中，模型被宣传可降低网页操作的延迟、提升鲁棒性，并强调其在多个 benchmark 上领先。
在 AI 智能体 / agent 研究方向，Anthropic 去年就推出了 Claude 的 “Computer Use” 版本，谷歌推出 Gemini 的“浏览器交互”版本，是这一赛道的重要竞争的一步。
此前，Google 内部研发项目 “Mariner” 就尝试让模型在网页中自动执行任务，例如根据食材清单在电商平台自动下单。Gemini 2.5 Computer Use 的发布可能是 Mariner 思路的产品化体现。

方向	风险 / 不确定性
误操作 / 安全风险	AI 在网页上操作若误点或提交错误表单，可能泄露隐私 / 执行错误操作，需要严控权限 / 确认机制。
兼容性 / 网页结构适配	网页结构多变，Model 需适配各种 DOM / JS 动态内容，否则操作失败率高。
滥用 / 自动化攻击	若模型被恶意用于爬虫 / 刷单 / 脚本攻击，可能成为安全隐患。
性能 / 延迟 / 成本	浏览器操作比纯文本推理复杂，模型在高并发 / 批量操作下的性能与费用控制是挑战。
界面限制 / 权限隔离	浏览器对跨域 / 脚本限制较多，模型在受限环境下处理能力可能受限。

核心回顾

谷歌推出 Gemini 2.5 Computer Use 模型，专攻浏览器交互，让 AI 智能体能够“自己动手”操作网页。
模型支持 13 种操作，接入方式为 Gemini API 的 computer_use 工具接口，目前在 Google AI Studio / Vertex AI 平台提供试用访问。
这款模型在网页 /移动端 benchmark 上表现优异，是谷歌在智能体 /agent 方向的关键落地步骤。

值得思考 /我的疑问

金句送给你

“回答告诉你道路，操作帮你走完全程；当 AI 能在网页里行动，它才不只是助手，而是伙伴。”