Google 為 Gemini 3.5 Flash 加入「Computer Use」功能　AI 代理可直接操作電腦跨平台執行任務

- 廣告 -

Google DeepMind 於 6 月 24 日（當地時間）宣布，將「Computer Use」工具內建於 Gemini 3.5 Flash 模型中。這項更新讓開發者能更輕鬆打造具備強大代理（agentic）能力的 AI 應用，讓模型不只「理解」內容，更能像人類一樣「看見」螢幕、移動滑鼠、點擊按鈕、輸入文字，跨瀏覽器、行動裝置與桌面環境完成複雜多步驟任務。

Excited to introduce Computer Use support for Gemini 3.5 Flash!🔥

This enables Gemini to reason and act across platforms (browser, mobile, and desktop environments)

We see significant improvements across many work-related automation tasks, from filing tickets and more. Enjoy! pic.twitter.com/Yy3tGvHx0D
— Omar Sanseviero (@osanseviero) June 24, 2026

從「聊天」到「真正操作電腦」

Computer Use 是 Gemini 3.5 Flash 內建的工具，模型會接收螢幕截圖，理解當前介面狀態後，輸出具體的 UI 操作指令（滑鼠點擊、鍵盤輸入、捲動、導航等）。Google 在官方部落格展示了兩個實際 demo：

Gemini App 功能分析：模型自動分析 Gemini 應用程式介面，並回傳分類整理的功能列表。

文件無障礙審核：模型審核自身技術文件，找出無障礙設計問題並提出改善建議。

這些例子顯示，AI 已能處理需要視覺理解與實際操作的真實世界任務。與去年推出的獨立 Gemini 2.5 Computer Use 模型相比，3.5 Flash 版本整合度更高、性能更強，並原生支援瀏覽器、Android 行動裝置及桌面環境的多環境操作。

- 廣告 -

透過 Gemini API 快速整合

開發者可透過 Gemini API 的 Interactions 端點啟用 Computer Use，只需指定環境（browser / mobile / desktop）並實作客戶端執行迴圈。模型會持續接收新截圖、輸出帶有「意圖說明」的動作建議，再由開發者端實際執行並回傳狀態。

Google 同時內建多層安全機制，包括提示注入偵測（prompt injection detection）、以及針對財務交易、敏感資料修改、自動開戶等高風險動作的內建政策阻擋。高風險操作仍需「人在環中」（human-in-the-loop）確認，降低誤操作風險。

Computer Use 的實用用例

這項功能特別適合需要重複操作 GUI 的場景，以下是幾個實用用例：

自動化軟體測試與 QA
AI 代理可模擬真實用戶操作流程，在網頁或 App 中執行點擊、輸入、導航等動作，自動進行回歸測試、UI 檢查或 bug 回報，大幅降低人工測試成本。
跨平台數據處理與表單自動化
從 PDF、Excel 或網頁提取資料，自動填寫多個線上表單、CRM 或內部系統。適合行政、財務或客服等需要大量重複數據輸入的工作流程。
智能網頁研究與資訊收集
代理能自動打開瀏覽器，搜尋產品、比較多個電商平台價格與規格、閱讀評論後整理報告。適合市場研究、競爭分析或個人購物決策輔助（最終交易仍建議人工確認）。
無障礙設計（Accessibility）自動審核
如同 Google demo 一樣，模型可掃描應用程式或網站介面，找出顏色對比不足、缺少替代文字、鍵盤導航問題等 WCAG 相關問題，並提供具體修復建議。
個人與團隊生產力代理
結合桌面與行動環境，自動分類電郵、更新日曆、同步不同 App 資訊，或處理常見客戶服務流程，提升個人或小團隊效率。

挑戰與注意事項

雖然功能強大，但 Computer Use 本質仍是 GUI 自動化，執行速度相對較慢，且容易受介面更新、彈出視窗或版面變化影響而中斷。Google 建議在沙箱環境（sandboxed VM 或容器）中運行，並對敏感操作實施嚴格監督。隱私與安全風險亦需特別留意，尤其涉及登入憑證或財務操作時。

Gemini 3.5 Flash 的 Computer Use 功能，標誌著生成式 AI 從「內容生成」走向「真實世界行動」的重要一步。隨著代理技術持續成熟，未來開發者將能打造出更能自主完成複雜工作流程的 AI 助手。

開發者現已可透過 Google AI Studio 或 Gemini API 開始嘗試這項功能，Google 亦提供 GitHub 參考實作方便快速上手。

- 廣告 -

Google 為 Gemini 3.5 Flash 加入「Computer Use」功能　AI 代理可直接操作電腦跨平台執行任務

從「聊天」到「真正操作電腦」

透過 Gemini API 快速整合

Computer Use 的實用用例

挑戰與注意事項

Related Articles

晶片成本頂唔住！Apple 全線上調 Mac 與 iPad 售價最高升 HK$5,500

G-SHOCK ×《寶可夢》30 週年聯乘登場　30 隻寶可夢集結戴上手

中國短劇製作全速 AI 化 90 天顛覆產業鏈

OpenAI 更新 GPT-5.5 Instant 模型　ChatGPT 對話品質再升級　決策購物更懂你

Recent Articles

晶片成本頂唔住！Apple 全線上調 Mac 與 iPad 售價最高升 HK$5,500

G-SHOCK ×《寶可夢》30 週年聯乘登場　30 隻寶可夢集結戴上手

中國短劇製作全速 AI 化 90 天顛覆產業鏈

OpenAI 更新 GPT-5.5 Instant 模型　ChatGPT 對話品質再升級　決策購物更懂你

最新影片

Google 為 Gemini 3.5 Flash 加入「Computer Use」功能 AI 代理可直接操作電腦跨平台執行任務

從「聊天」到「真正操作電腦」

透過 Gemini API 快速整合

Computer Use 的實用用例

挑戰與注意事項

Related Articles

Recent Articles

最新影片

Google 為 Gemini 3.5 Flash 加入「Computer Use」功能　AI 代理可直接操作電腦跨平台執行任務