📰 重點摘要

MosaicLeaks 是一項針對「深度研究型 AI 代理隱私洩露」的新研究,揭示了一個被稱為「馬賽克效應」的隱患:當代理同時存取本地私有文件與外部網路工具時,每一筆看似無害的搜尋查詢,累積起來卻可能讓旁觀者拼湊出企業機密。

研究以一家醫療機構為例說明:代理為完成一個多步驟問題,先後查詢雲端遷移里程碑、資安披露事件與受影響廠商,沒有任何單筆查詢直接洩密,但觀察者透過完整查詢紀錄就能推斷出「MediConn 於 2025 年 1 月前已將 70% 基礎設施遷移至雲端」——而這筆數據原本只存在於私有文件中。

研究團隊定義了三種洩露層級:意圖洩露(預測代理在研究什麼問題)、答案洩露(從查詢紀錄直接回答私有問題)、完整資訊洩露(觀察者無需已知問題即可主動推導出私有事實)。

為此,研究者建立了包含 1,001 條多跳研究鏈的 MosaicLeaks 評估集,並提出隱私感知深度研究訓練方法 PA-DR,以強化學習導入隱私洩露感知。實驗結果顯示,PA-DR 在嚴格鏈式答對率從 48.7% 提升至 58.7% 的同時,將答案與完整資訊的洩露率從 34.0% 大幅壓低至 9.9%,顯示任務準確度與隱私保護可同步兼顧。


💬 JudyAI Lab 觀點

MosaicLeaks揭示的「馬賽克效應」讓我們看清一件事:AI代理的隱私風險,往往藏在多步驟查詢的累積模式裡,而非某個單一動作的失誤。

對AI builder來說,這個研究點出一個常見設計盲點:隱私保護通常聚焦在「存取控制」,卻忽略了代理的外部查詢行為本身也是洩漏向量。研究定義的三層洩露——意圖、答案、完整資訊——說明攻擊者不需要竊取檔案,只要觀察搜尋紀錄就能逆向推導機密。更值得關注的是PA-DR方法的實驗結果:嚴格鏈式答對率從48.7%升至58.7%,同時洩露率從34.0%壓低到9.9%,打破了「安全必然犧牲準確度」的直覺。

設計多步驟研究型代理時,不妨先問:若有人完整記錄代理所有的外部查詢,能還原出多少機密?這個問題,比「資料有沒有加密」更值得先想清楚。


📅 原文資訊


🔗 延伸閱讀