Google 為 Gemini 3.5 Flash 加入「Computer Use」功能 AI 代理可直接操作電腦跨平台執行任務

Author:

Published:

- 廣告 -

Google DeepMind 於 6 月 24 日(當地時間)宣布,將「Computer Use」工具內建於 Gemini 3.5 Flash 模型中。這項更新讓開發者能更輕鬆打造具備強大代理(agentic)能力的 AI 應用,讓模型不只「理解」內容,更能像人類一樣「看見」螢幕、移動滑鼠、點擊按鈕、輸入文字,跨瀏覽器、行動裝置與桌面環境完成複雜多步驟任務。

從「聊天」到「真正操作電腦」

Computer Use 是 Gemini 3.5 Flash 內建的工具,模型會接收螢幕截圖,理解當前介面狀態後,輸出具體的 UI 操作指令(滑鼠點擊、鍵盤輸入、捲動、導航等)。Google 在官方部落格展示了兩個實際 demo:

  • Gemini App 功能分析:模型自動分析 Gemini 應用程式介面,並回傳分類整理的功能列表。
  • 文件無障礙審核:模型審核自身技術文件,找出無障礙設計問題並提出改善建議。

這些例子顯示,AI 已能處理需要視覺理解與實際操作的真實世界任務。與去年推出的獨立 Gemini 2.5 Computer Use 模型相比,3.5 Flash 版本整合度更高、性能更強,並原生支援瀏覽器、Android 行動裝置及桌面環境的多環境操作。

- 廣告 -

透過 Gemini API 快速整合

開發者可透過 Gemini API 的 Interactions 端點啟用 Computer Use,只需指定環境(browser / mobile / desktop)並實作客戶端執行迴圈。模型會持續接收新截圖、輸出帶有「意圖說明」的動作建議,再由開發者端實際執行並回傳狀態。

Google 同時內建多層安全機制,包括提示注入偵測(prompt injection detection)、以及針對財務交易、敏感資料修改、自動開戶等高風險動作的內建政策阻擋。高風險操作仍需「人在環中」(human-in-the-loop)確認,降低誤操作風險。

Computer Use 的實用用例

這項功能特別適合需要重複操作 GUI 的場景,以下是幾個實用用例:

  1. 自動化軟體測試與 QA
    AI 代理可模擬真實用戶操作流程,在網頁或 App 中執行點擊、輸入、導航等動作,自動進行回歸測試、UI 檢查或 bug 回報,大幅降低人工測試成本。
  2. 跨平台數據處理與表單自動化
    從 PDF、Excel 或網頁提取資料,自動填寫多個線上表單、CRM 或內部系統。適合行政、財務或客服等需要大量重複數據輸入的工作流程。
  3. 智能網頁研究與資訊收集
    代理能自動打開瀏覽器,搜尋產品、比較多個電商平台價格與規格、閱讀評論後整理報告。適合市場研究、競爭分析或個人購物決策輔助(最終交易仍建議人工確認)。
  4. 無障礙設計(Accessibility)自動審核
    如同 Google demo 一樣,模型可掃描應用程式或網站介面,找出顏色對比不足、缺少替代文字、鍵盤導航問題等 WCAG 相關問題,並提供具體修復建議。
  5. 個人與團隊生產力代理
    結合桌面與行動環境,自動分類電郵、更新日曆、同步不同 App 資訊,或處理常見客戶服務流程,提升個人或小團隊效率。

挑戰與注意事項

雖然功能強大,但 Computer Use 本質仍是 GUI 自動化,執行速度相對較慢,且容易受介面更新、彈出視窗或版面變化影響而中斷。Google 建議在沙箱環境(sandboxed VM 或容器)中運行,並對敏感操作實施嚴格監督。隱私與安全風險亦需特別留意,尤其涉及登入憑證或財務操作時。

Gemini 3.5 Flash 的 Computer Use 功能,標誌著生成式 AI 從「內容生成」走向「真實世界行動」的重要一步。隨著代理技術持續成熟,未來開發者將能打造出更能自主完成複雜工作流程的 AI 助手。

開發者現已可透過 Google AI Studio 或 Gemini API 開始嘗試這項功能,Google 亦提供 GitHub 參考實作方便快速上手。

- 廣告 -
Buy Me a CPM: PCM 讀者會員資助計劃
- 廣告 -

Related Articles

- 廣告 -

Recent Articles

- 廣告 -

最新影片

- 廣告 -