📰 重點摘要
Google 正式將電腦操控(computer use)能力內建至 Gemini 3.5 Flash 模型。此功能過去僅作為獨立的 Gemini 2.5 電腦操控專屬模型提供,如今直接整合進主力的 Flash 系列,開發者無需切換模型即可使用。
Gemini 3.5 Flash 本身已具備強大的函式呼叫能力,並支援 Search、Maps 等內建工具。加入電腦操控後,模型能夠透過視覺感知畫面、推理當前狀態並採取行動,適用範圍涵蓋瀏覽器、行動裝置與桌面環境。官方示範案例包括:讓 3.5 Flash 自動分析 Gemini 應用程式並回傳功能分類清單,以及對自家文件進行無障礙設計的自動稽核。這類長流程、跨系統的企業級自動化任務,如持續軟體測試與跨專業應用的知識工作,正是此次升級的主要應用場景。
安全機制方面,Google 針對電腦操控功能進行了定向對抗訓練,以降低代理程式在真實環境操作時遭受提示注入攻擊的風險。此外同步釋出兩項可選的企業防護機制:一是對敏感或不可逆操作要求明確的使用者確認;二是偵測到間接提示注入時自動終止任務。Google 建議採取「縱深防禦」策略,將上述機制與安全沙盒、人機協作驗證及嚴格存取控制搭配使用。開發者可透過 Gemini API 及 Gemini Enterprise Agent Platform 立即開始使用。
💬 JudyAI Lab 觀點
Google把電腦操控能力內建進Gemini 3.5 Flash主力模型,這讓我們看到Agent核心能力正式從「獨立功能」升格為模型基礎建設。
我們認為這次整合最值得關注的,是設計思路的轉變。過去電腦操控是獨立模型,現在它與函式呼叫、Search、Maps合為一體,開發者無需切換模型就能讓Agent同時感知畫面、呼叫工具、跨系統操作。對AI builder來說,任務邊界的設計,可能比挑選模型更關鍵——哪些步驟需要視覺推理、哪些需要人機確認,這些流程決策才是差異化的核心。Google同時提出縱深防禦策略(沙盒、確認機制、提示注入偵測),也清楚提醒:給Agent加操控能力時,安全架構不能是事後補丁。
現在可以開Gemini API試跑一個跨畫面小任務,特別觀察不可逆操作前是否主動觸發確認——這是驗證Agent安全設計最直接的方法。
📅 原文資訊
- 發布時間:2026-06-24T16:30
- 來源原文:https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/