2026年3月25日 5 分鐘閱讀

AI 開始會用滑鼠，但更重要的是開始會選工具

解析 Claude/Cowork 與 OpenClaw 的本質差異：重點不在於 GUI 操作，而是「連接器、瀏覽器、螢幕操作」的三層執行路徑優先權。

文章目錄展開

AI 正在從「幫你想」演變為「幫你做」。

過去大模型停留在文字層：撰寫郵件、整理資料、生成代碼。現在，模型開始具備執行力：點擊、切換視窗、呼叫工具。大眾將此轉變簡化為「AI 終於會用滑鼠了」，但若僅關注滑鼠，將錯失核心趨勢。

真正的重點在於 Agent 執行路徑的產品化。以 Anthropic 的 Cowork 為例，其核心邏輯並非「預設使用 GUI」，而是建立了一套明確的執行優先順序：連接器（Connectors）優先，瀏覽器（Browser）次之，螢幕操作（Screen Interaction）為最終補位。

Cowork 的三層執行路徑：精確度決定優先級

根據 Anthropic 官方說明，Claude 在執行任務時會優先選擇「最精確的工具」，而非直接模擬人類操作。這是一條明確的「降級路徑」：

第一層：連接器（Connectors） 若 Gmail、Slack 或 Google Drive 已有現成連接器，Claude 會優先呼叫 API。這路徑最快且最穩定，避開了 UI 變動導致的誤差。
第二層：瀏覽器（Browser） 若無直接連接器，則退而求其次，透過控制瀏覽器專用環境完成 Web 任務。這比操作整個桌面更具聚焦性。
第三層：螢幕操作（Computer Use） 最後手段才是操作整個 GUI 畫面。這是通用性最高、但最慢且最昂貴的路徑。

這種設計代表：Computer Use 是為了填補 API 覆蓋不到的空白，而非取代 API。

商業封裝與開源架構：Cowork vs. OpenClaw

將 Claude/Cowork 與 OpenClaw 對比時，不應簡化為「GUI 對打」。兩者代表了不同的 Agent 工程路線：

Claude / Cowork（商業體系）：強調降級邏輯的產品化。將複雜的執行路徑封裝為開箱即用的服務，重點在於任務的「成功交付率」。
OpenClaw（開源架構）：強調執行環境的控制權。提供自託管的控制平面與工具編排，重點在於系統的「可擴展性」與「審計性」。

前者是「解決方案」，後者是「工程底座」。兩者都可能整合 GUI 操作，但出發點完全不同。

現實限制：成本與安全性

讓 AI 操作電腦並非毫無代價，目前面臨兩大核心挑戰：

1. 執行成本（Token 消耗）

螢幕操作路線極其昂貴。AI 每一次點擊、讀取畫面、確認按鈕位置，都在消耗大量的視覺與決策 Token。

高頻操作低效化：若任務涉及大量重複的機械式點擊，螢幕操作的 Token 成本將遠高於其創造的價值。
容錯成本：複雜任務若需多次嘗試，成本呈線性增長。這也是為何「連接器」永遠是第一優先級。

2. 安全性（權限邊界）

當 Agent 具備行動能力，風險便從「生成錯誤資訊」升級為「執行錯誤操作」。

隔離挑戰：Anthropic 提醒 Computer Use 可能直接互動真實桌面。這帶來了誤刪資料、權限過大，以及被網頁內容誘導（Prompt Injection）的風險。
防禦機制：目前的防護手段，如 Blocklist、個別 App 授權，仍處於早期階段，Agent 必須在低敏感或隔離環境中執行。

趨勢預測：從人機介面轉向 Agent 介面

如果 Agent 成為軟體的主要使用者，未來的設計邏輯將發生反轉：

萬物 CLI 化：雖然 GUI 直觀，但 CLI（命令行）對模型更友善。未來可能出現更多「為機器設計」的輕量化執行入口。
混合式架構：最終形態不會是純粹的「螢幕操作 Agent」，而是能根據成本與風險，自動在 API、CLI 與 GUI 之間切換的混合系統。
軟體重構：過去軟體是為了「人類視覺直覺」設計，未來將為了「Agent 可靠執行」而優化。

結論

AI 會操作滑鼠確實是轉折點，但真正的價值在於 AI 開始具備「選擇工具」的決策層級。

Computer Use 讓 Agent 跨越了人類介面的最後一道門檻，但它更像是一種「保底能力」。長期而言，影響世界的將不是 AI 如何完美模擬人類點擊，而是整個軟體生態如何為了這群「新型使用者」重新設計執行路徑。

延伸閱讀

繼續探索

搜尋更多文章更多 AI 文章