返回文章列表
2026年3月25日 5 分鐘閱讀

AI 開始會用滑鼠,但更重要的是開始會選工具

解析 Claude/Cowork 與 OpenClaw 的本質差異:重點不在於 GUI 操作,而是「連接器、瀏覽器、螢幕操作」的三層執行路徑優先權。

抽象介面中交錯的視窗、指令列與自動化流程節點

AI 正在從「幫你想」演變為「幫你做」。

過去大模型停留在文字層:撰寫郵件、整理資料、生成代碼。現在,模型開始具備執行力:點擊、切換視窗、呼叫工具。大眾將此轉變簡化為「AI 終於會用滑鼠了」,但若僅關注滑鼠,將錯失核心趨勢。

真正的重點在於 Agent 執行路徑的產品化。以 Anthropic 的 Cowork 為例,其核心邏輯並非「預設使用 GUI」,而是建立了一套明確的執行優先順序:連接器(Connectors)優先,瀏覽器(Browser)次之,螢幕操作(Screen Interaction)為最終補位。

Cowork 的三層執行路徑:精確度決定優先級

根據 Anthropic 官方說明,Claude 在執行任務時會優先選擇「最精確的工具」,而非直接模擬人類操作。這是一條明確的「降級路徑」:

  1. 第一層:連接器(Connectors) 若 Gmail、Slack 或 Google Drive 已有現成連接器,Claude 會優先呼叫 API。這路徑最快且最穩定,避開了 UI 變動導致的誤差。
  2. 第二層:瀏覽器(Browser) 若無直接連接器,則退而求其次,透過控制瀏覽器專用環境完成 Web 任務。這比操作整個桌面更具聚焦性。
  3. 第三層:螢幕操作(Computer Use) 最後手段才是操作整個 GUI 畫面。這是通用性最高、但最慢且最昂貴的路徑。

這種設計代表:Computer Use 是為了填補 API 覆蓋不到的空白,而非取代 API。

商業封裝與開源架構:Cowork vs. OpenClaw

將 Claude/Cowork 與 OpenClaw 對比時,不應簡化為「GUI 對打」。兩者代表了不同的 Agent 工程路線:

  • Claude / Cowork(商業體系):強調降級邏輯的產品化。將複雜的執行路徑封裝為開箱即用的服務,重點在於任務的「成功交付率」。
  • OpenClaw(開源架構):強調執行環境的控制權。提供自託管的控制平面與工具編排,重點在於系統的「可擴展性」與「審計性」。

前者是「解決方案」,後者是「工程底座」。兩者都可能整合 GUI 操作,但出發點完全不同。

現實限制:成本與安全性

讓 AI 操作電腦並非毫無代價,目前面臨兩大核心挑戰:

1. 執行成本(Token 消耗)

螢幕操作路線極其昂貴。AI 每一次點擊、讀取畫面、確認按鈕位置,都在消耗大量的視覺與決策 Token。

  • 高頻操作低效化:若任務涉及大量重複的機械式點擊,螢幕操作的 Token 成本將遠高於其創造的價值。
  • 容錯成本:複雜任務若需多次嘗試,成本呈線性增長。這也是為何「連接器」永遠是第一優先級。

2. 安全性(權限邊界)

當 Agent 具備行動能力,風險便從「生成錯誤資訊」升級為「執行錯誤操作」。

  • 隔離挑戰:Anthropic 提醒 Computer Use 可能直接互動真實桌面。這帶來了誤刪資料、權限過大,以及被網頁內容誘導(Prompt Injection)的風險。
  • 防禦機制:目前的防護手段,如 Blocklist、個別 App 授權,仍處於早期階段,Agent 必須在低敏感或隔離環境中執行。

趨勢預測:從人機介面轉向 Agent 介面

如果 Agent 成為軟體的主要使用者,未來的設計邏輯將發生反轉:

  1. 萬物 CLI 化:雖然 GUI 直觀,但 CLI(命令行)對模型更友善。未來可能出現更多「為機器設計」的輕量化執行入口。
  2. 混合式架構:最終形態不會是純粹的「螢幕操作 Agent」,而是能根據成本與風險,自動在 API、CLI 與 GUI 之間切換的混合系統。
  3. 軟體重構:過去軟體是為了「人類視覺直覺」設計,未來將為了「Agent 可靠執行」而優化。

結論

AI 會操作滑鼠確實是轉折點,但真正的價值在於 AI 開始具備「選擇工具」的決策層級

Computer Use 讓 Agent 跨越了人類介面的最後一道門檻,但它更像是一種「保底能力」。長期而言,影響世界的將不是 AI 如何完美模擬人類點擊,而是整個軟體生態如何為了這群「新型使用者」重新設計執行路徑。

延伸閱讀

繼續探索