MosaicLeaks研究：AI研究代理人真的能保守機密嗎？

📰 重點摘要

MosaicLeaks 是一項針對「深度研究型 AI 代理隱私洩露」的新研究，揭示了一個被稱為「馬賽克效應」的隱患：當代理同時存取本地私有文件與外部網路工具時，每一筆看似無害的搜尋查詢，累積起來卻可能讓旁觀者拼湊出企業機密。

研究以一家醫療機構為例說明：代理為完成一個多步驟問題，先後查詢雲端遷移里程碑、資安披露事件與受影響廠商，沒有任何單筆查詢直接洩密，但觀察者透過完整查詢紀錄就能推斷出「MediConn 於 2025 年 1 月前已將 70% 基礎設施遷移至雲端」——而這筆數據原本只存在於私有文件中。

研究團隊定義了三種洩露層級：意圖洩露（預測代理在研究什麼問題）、答案洩露（從查詢紀錄直接回答私有問題）、完整資訊洩露（觀察者無需已知問題即可主動推導出私有事實）。

為此，研究者建立了包含 1,001 條多跳研究鏈的 MosaicLeaks 評估集，並提出隱私感知深度研究訓練方法 PA-DR，以強化學習導入隱私洩露感知。實驗結果顯示，PA-DR 在嚴格鏈式答對率從 48.7% 提升至 58.7% 的同時，將答案與完整資訊的洩露率從 34.0% 大幅壓低至 9.9%，顯示任務準確度與隱私保護可同步兼顧。

💬 JudyAI Lab 觀點

MosaicLeaks揭示的「馬賽克效應」讓我們看清一件事：AI代理的隱私風險，往往藏在多步驟查詢的累積模式裡，而非某個單一動作的失誤。

對AI builder來說，這個研究點出一個常見設計盲點：隱私保護通常聚焦在「存取控制」，卻忽略了代理的外部查詢行為本身也是洩漏向量。研究定義的三層洩露——意圖、答案、完整資訊——說明攻擊者不需要竊取檔案，只要觀察搜尋紀錄就能逆向推導機密。更值得關注的是PA-DR方法的實驗結果：嚴格鏈式答對率從48.7%升至58.7%，同時洩露率從34.0%壓低到9.9%，打破了「安全必然犧牲準確度」的直覺。

設計多步驟研究型代理時，不妨先問：若有人完整記錄代理所有的外部查詢，能還原出多少機密？這個問題，比「資料有沒有加密」更值得先想清楚。

📅 原文資訊

發布時間：2026-06-18T18:13
來源原文：https://huggingface.co/blog/ServiceNow/mosaicleaks

📰 重點摘要#

💬 JudyAI Lab 觀點#

📅 原文資訊#

🔗 延伸閱讀#

訂閱 AI 週報，每週精選新知：

📰 重點摘要

💬 JudyAI Lab 觀點

📅 原文資訊

🔗 延伸閱讀