Computer-Use：当 AI Agent 不再需要 API

昨天 Anthropic 官宣了 Claude 的 Computer Use 功能正式进入 macOS：打开 Claude Desktop，让它帮你操作电脑，它会自己打开应用、点击按钮、填写表单、切换窗口。不需要你写任何代码，不需要任何 API 集成。

这不是第一次有人做这件事。OpenAI 的 Operator、Microsoft 的 Computer-Using Agent（CUA）、Perplexity Computer、Manus 的 “My Computer” 都在做类似的事情。但 Claude Computer Use 直接内置到桌面应用里，加上新发布的 Dispatch（用手机远程指挥电脑上的 Claude），把这个方向的体验推到了一个新水平。

这篇文章不是产品评测。我想聊的是一个更根本的问题：当 AI 学会了”看屏幕、点鼠标”，软件之间的连接方式是不是要变了？

什么是 Computer-Use

Computer-Use 的核心机制是一个感知-推理-行动循环（Perception-Reasoning-Action Loop）：

感知：截取当前屏幕截图
推理：分析截图中的 UI 元素（按钮、输入框、菜单），决定下一步操作
行动：执行操作（移动鼠标、点击、输入文字、运行命令）
重复：操作完成后再截一张图，根据新状态规划下一步

这个循环持续到任务完成。AI 不是在调用 API，它是在”看”屏幕，像人一样操作软件。

从技术实现上说，Anthropic 提供了三个基础工具：Computer Tool（鼠标键盘控制）、Text Editor（文件操作）、Bash Tool（终端命令）。这三个原语覆盖了人在电脑上做的绝大多数事情。

为什么这件事重要

你可能会问：既然有 API，为什么还要用”看屏幕点鼠标”这种笨方法？

答案很简单：大多数软件没有 API。

这里说的不是 GitHub、Slack、Notion 这些开发者工具。它们有完善的 REST API，集成起来不难。问题在于企业环境里那些真正重要的系统：

运行了 20 年的 ERP 系统，用的还是 Windows Forms
银行的核心交易系统，只有 Citrix 远程桌面界面
医院的 HIS 系统，只能通过特定客户端操作
政府办公系统，只有 IE 兼容的 Web 界面

这些系统承载着关键业务，但它们的设计年代没有考虑过”被其他程序调用”这件事。IT 部门想集成它们，要么花几百万做定制开发，要么用 RPA（机器人流程自动化）写死每一步的坐标和操作——一旦 UI 改版就全部报废。

Computer-Use 改变了这个局面。GUI 本身变成了集成层。只要人能操作的软件，AI 就能操作。不需要 API，不需要数据库直连，不需要厂商配合。

当前的主要玩家

Anthropic Claude Computer Use

最早发布（2024 年 10 月公测），也是目前能力最全面的。既能操作浏览器，也能控制桌面应用、终端、文件系统。昨天的更新把它从 API-only 变成了 Claude Desktop 内置功能，Mac 用户直接用。

新增的 Dispatch 功能让你可以从手机给电脑上的 Claude 下指令——“帮我把今天的会议纪要整理成邮件发出去”，然后 Claude 自己在电脑上打开日历、读会议记录、打开邮件客户端、写好发送。

成本：截图是主要开销。根据 Anthropic API 定价估算，一个 50 步的自动化任务大约花 $0.50-$2.00，取决于屏幕分辨率和模型选择。

OpenAI Operator

2025 年 1 月发布，主要定位是浏览器自动化。在云端运行一个浏览器实例，AI 在里面操作。优势是不需要本地安装任何东西，适合网页端的任务（订餐、填表、搜索信息）。限制是只能操作浏览器，不能控制桌面应用。

Microsoft Computer-Using Agent（CUA）

2025 年 4 月在 Copilot Studio 里发布，持续迭代中。最大的特点是企业级特性：内置凭据管理（不用把密码暴露给 AI）、操作审计日志（每一步截图 + 动作记录）、Cloud PC 池（自动分配虚拟桌面来跑任务）。

支持多个模型：OpenAI CUA 和 Claude Sonnet 4.5 都可以选。这说明微软自己也认为，Computer-Use 能力不是一家独大，而是会变成一个通用的 AI 能力层。

其他玩家

Perplexity：提供云端版 Computer 和基于 Mac Mini 的 Personal Computer 两个方案
Manus “My Computer”：把你的 Mac 变成 AI Agent
AskUI：开源方案，用计算机视觉操作任何应用，支持离线运行
CLI-Anything：另一个思路——不操作 GUI，而是给桌面应用自动生成 CLI 接口，让 Agent 通过结构化命令操作

Computer-Use vs API vs MCP

现在 AI Agent 连接外部软件有三种主要方式：

API 集成

传统方式。软件提供 REST/GraphQL API，Agent 通过 function calling 调用。

优点：速度快、可靠、结构化数据
缺点：需要软件提供 API（很多不提供）；需要开发者写集成代码；API 变动要维护

MCP（Model Context Protocol）

Anthropic 去年提出的协议，正在成为 AI 工具连接的标准。软件提供 MCP Server，Agent 通过标准协议调用。

优点：标准化、工具发现自动化、比裸 API 更适合 AI 场景
缺点：需要软件方适配 MCP（比写 API 简单，但仍需要开发）；目前生态还在早期

Computer-Use

不需要软件做任何改动。AI 直接看屏幕操作。

优点：对被操作的软件零要求；能处理任何有 GUI 的系统
缺点：慢（截图-分析-操作的循环比 API 调用慢一个数量级）；不够可靠（UI 变化可能导致操作失败）；成本高（每一步都要消耗视觉推理 token）；安全风险（AI 能看到屏幕上的所有内容）

三种方式不是互相替代的关系，而是互补的。实际的 Agent 工作流会混合使用：

有 API 的软件 → 用 API（快、稳、便宜）
有 MCP 的软件 → 用 MCP（标准化、适合 AI）
没有 API 也没有 MCP 的软件 → 用 Computer-Use（最后手段）

这像极了 Web 开发中的渐进增强（Progressive Enhancement）：优先用最好的方式，但确保在最差的条件下也能工作。

安全问题不能忽视

给 AI 控制你的电脑，安全隐患是显而易见的。

屏幕信息泄露：Computer-Use 需要截取屏幕截图发送给 AI 模型。如果你的屏幕上有敏感信息（密码、私钥、客户数据），这些信息会被 AI 服务看到。Anthropic 的做法是在本地处理截图，但 API 模式下截图确实会发送到云端。

误操作风险：AI 可能点错按钮、在错误的输入框里输入内容、意外删除文件。目前的 Computer-Use 还不够精确——拖拽、滚动、点击小目标这些操作的失败率比较高。

权限过大：一旦给了 AI 桌面控制权限，它理论上可以访问你电脑上的任何东西。Anthropic 强调了”最小权限”原则，但实际执行中很难精确控制。

微软的 CUA 在这方面做得比较认真：凭据加密存储（AI 模型看不到密码明文）、每一步操作都有截图日志和审计记录、支持人工审批节点。企业场景下这些功能不是可选的，是必须的。

对于个人用户，目前的建议是：

不要在包含敏感信息的环境中运行 Computer-Use
使用单独的用户账号或虚拟机来隔离 Agent 操作
重要操作前设置确认节点（让 AI 先告诉你要做什么，你确认后再执行）

对开发者意味着什么

如果你是前端或全栈开发者，Computer-Use 趋势有几个值得关注的点：

1. UI 的”可读性”变得更重要

当 AI 通过截图理解你的 UI 时，语义化的设计比视觉花哨更重要。清晰的按钮标签、合理的布局层次、一致的交互模式——这些原本是给人看的最佳实践，现在 AI 也需要。

写好 ARIA 标签、用语义化 HTML、保持 UI 一致性——这些做法现在有了额外的收益：让 AI Agent 也能更好地理解和操作你的应用。

2. MCP 是更好的 AI 集成方式

如果你在做面向开发者的工具，与其等着别人用 Computer-Use 来”暴力”操作你的 UI，不如主动提供 MCP Server。MCP 集成比 Computer-Use 快 10 倍以上、可靠得多、成本低得多。

Google Stitch 前几天刚发布了 MCP Server，Figma、VS Code、各种数据库都在接入。这个生态在快速成长。

3. RPA 行业面临冲击

传统 RPA（UiPath、Automation Anywhere）的核心卖点是”自动化没有 API 的软件”。Computer-Use 做的是同样的事，但不需要硬编码每一步的坐标和操作，而是用 AI 理解 UI 语义后自适应操作。UI 改版了？Computer-Use 自己看新界面重新理解，不需要人工维护脚本。

这不是说 RPA 马上消失——企业有大量已经部署的 RPA 流程，迁移需要时间。但对于新的自动化项目，Computer-Use 的灵活性优势很明显。

现在的局限

说了这么多好处，也要客观看问题：

速度：截图-分析-操作的循环天生比 API 调用慢。一个 API 调用毫秒级完成的事情，Computer-Use 可能需要几十秒。

可靠性：AI 有时候会”看错”——把一个按钮认成另一个，在错误的位置点击，或者面对弹窗不知道怎么处理。复杂任务可能需要多次重试。

成本：每一步截图都要消耗视觉推理 token。长流程下来费用不低。

分辨率依赖：屏幕分辨率越高，截图越大，token 消耗越多，但 AI 看小元素反而更困难。

这些问题都在快速改善。Anthropic 收购了 Vercept（专做视觉感知的公司）来强化底层能力，Microsoft 在用 Cloud PC 解决基础设施问题，各家都在优化截图压缩和 UI 元素识别算法。

结论

Computer-Use 不是 API 的替代品，而是 API 的补充。它填补了一个长期存在的空白：如何让 AI 操作那些没有编程接口的软件。

短期来看，它最大的价值在企业场景——用 AI 打通那些用了十几年但没有 API 的老系统。长期来看，它可能改变我们对”软件集成”的理解：未来的 Agent 不需要每个软件都提供 API，它自己看着屏幕就能用。

对于开发者，当下最务实的做法是：

核心集成用 API/MCP（快、稳、便宜）
长尾需求用 Computer-Use 兜底（慢但灵活）
给自己的产品提供 MCP Server，让 AI 集成走正道而不是暴力操作 UI

AI Agent 的交互方式正在从”调用 API”扩展到”像人一样使用软件”。这不是取代，是进化。