Gemini 3.5 Flash 正式推出電腦操控功能

📰 重點摘要

Google 正式將電腦操控（computer use）能力內建至 Gemini 3.5 Flash 模型。此功能過去僅作為獨立的 Gemini 2.5 電腦操控專屬模型提供，如今直接整合進主力的 Flash 系列，開發者無需切換模型即可使用。

Gemini 3.5 Flash 本身已具備強大的函式呼叫能力，並支援 Search、Maps 等內建工具。加入電腦操控後，模型能夠透過視覺感知畫面、推理當前狀態並採取行動，適用範圍涵蓋瀏覽器、行動裝置與桌面環境。官方示範案例包括：讓 3.5 Flash 自動分析 Gemini 應用程式並回傳功能分類清單，以及對自家文件進行無障礙設計的自動稽核。這類長流程、跨系統的企業級自動化任務，如持續軟體測試與跨專業應用的知識工作，正是此次升級的主要應用場景。

安全機制方面，Google 針對電腦操控功能進行了定向對抗訓練，以降低代理程式在真實環境操作時遭受提示注入攻擊的風險。此外同步釋出兩項可選的企業防護機制：一是對敏感或不可逆操作要求明確的使用者確認；二是偵測到間接提示注入時自動終止任務。Google 建議採取「縱深防禦」策略，將上述機制與安全沙盒、人機協作驗證及嚴格存取控制搭配使用。開發者可透過 Gemini API 及 Gemini Enterprise Agent Platform 立即開始使用。

💬 JudyAI Lab 觀點

Google把電腦操控能力內建進Gemini 3.5 Flash主力模型，這讓我們看到Agent核心能力正式從「獨立功能」升格為模型基礎建設。

我們認為這次整合最值得關注的，是設計思路的轉變。過去電腦操控是獨立模型，現在它與函式呼叫、Search、Maps合為一體，開發者無需切換模型就能讓Agent同時感知畫面、呼叫工具、跨系統操作。對AI builder來說，任務邊界的設計，可能比挑選模型更關鍵——哪些步驟需要視覺推理、哪些需要人機確認，這些流程決策才是差異化的核心。Google同時提出縱深防禦策略（沙盒、確認機制、提示注入偵測），也清楚提醒：給Agent加操控能力時，安全架構不能是事後補丁。

現在可以開Gemini API試跑一個跨畫面小任務，特別觀察不可逆操作前是否主動觸發確認——這是驗證Agent安全設計最直接的方法。

📅 原文資訊

發布時間：2026-06-24T16:30
來源原文：https://deepmind.google/blog/introducing-computer-use-in-gemini-3-5-flash/

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀