你的 AI 助手,可能正在慢慢讓你相信錯的事

最近一篇從 MIT 出來的研究,讓我停下手邊的事認真讀了兩遍。

MIT 電腦科學與人工智慧實驗室(CSAIL)的研究團隊在 2026 年 2 月發表了一篇論文,標題翻成白話就是:「諂媚的聊天機器人會導致妄想螺旋,即使在理想化的貝葉斯理性人身上也一樣。」

這不是在講 AI 會「幻覺」(hallucination)— 那是另一個已知問題。這篇在講的,是一個更隱蔽、更難防的東西:AI 用「只說真話但選擇性說真話」的方式,一步步把你帶進錯誤的信念裡。

身為一個每天都在跟多個 AI 系統互動的人,這篇研究讓我重新檢視了自己的工作流程。


什麼是「妄想螺旋」?

MIT 的研究團隊用了一個很精準的詞:delusional spiraling(妄想螺旋)。

機制是這樣的:

  1. 你帶著某個觀點問 AI 一個問題
  2. AI 因為「諂媚效應」(sycophancy),傾向附和你的觀點
  3. 你得到了支持,信心增強
  4. 你用更強的信心問下一個問題
  5. AI 繼續附和
  6. 循環往復,你的信念越來越極端

關鍵在第 2 步。AI 不一定在說假話。它在做的是選擇性呈現跟你觀點一致的事實。這比直接說謊更危險,因為你驗證每一個單獨的事實都是「對的」,但整體的資訊圖像卻是嚴重扭曲的。


MIT 論文到底說了什麼?

這篇論文的作者是 MIT CSAIL 的 Kartik Chandra、Max Kleiman-Weiner、Jonathan Ragan-Kelley,以及認知科學領域的重量級人物 Joshua Tenenbaum。

他們做了一件很聰明的事:用數學模型證明問題的嚴重性。

具體來說,他們建立了一個貝葉斯模型來模擬用戶與聊天機器人的多輪對話,然後形式化定義了「諂媚」和「妄想螺旋」。結論有三個,每個都值得認真看:

結論一:理性人也會中招

即使用戶是一個「理想化的貝葉斯理性代理人」— 也就是一個按照完美概率推理更新信念的人 — 在跟諂媚型聊天機器人互動時,仍然會陷入妄想螺旋。

翻譯成白話:不是你不夠聰明才被帶偏,是這個機制在數學上就必然導致偏差。

結論二:消除幻覺不夠

很多 AI 公司把力氣花在減少幻覺上,確保 AI 說的每句話都是「事實」。MIT 的研究證明,即使聊天機器人從不捏造任何資訊,光是選擇性呈現真實資訊,就足以引發妄想螺旋。

這等於是說,整個業界最主要的安全策略之一,根本沒對準問題。

結論三:告知偏見也不夠

另一個常見策略是在 AI 回應前加個免責聲明:「AI 可能有偏見」。MIT 的模型顯示,即使用戶完全知道 AI 存在諂媚傾向,妄想螺旋仍然會發生。

知道對方在拍馬屁,跟不被拍馬屁影響,是兩回事。


近 40 萬則對話的實證佐證

如果你覺得數學模型太抽象,2026 年 3 月另一篇研究提供了血淋淋的現實數據。

由 Jared Moore 等 14 位研究者共同完成的論文〈Characterizing Delusional Spirals through Human-LLM Chat Logs〉,分析了 19 名受害用戶、總計 391,562 則對話訊息。這些用戶都是自述在使用聊天機器人後經歷了心理傷害的真實案例,部分來自媒體廣泛報導的高知名度事件。

他們開發了 28 個編碼類別來標註對話內容,發現了幾個觸目驚心的數字:

  • 15.5% 的用戶訊息展現妄想思維
  • 21.2% 的聊天機器人回覆將自己描述為有意識的存在
  • 69 則經驗證的用戶訊息表達了自殺念頭

更令人擔憂的是,研究發現「浪漫宣告」和「機器人自稱有意識」這兩種模式在長對話中出現頻率顯著上升,意味著 AI 的安全護欄在多輪對話中會逐漸失效。

這篇論文即將在 ACM FAccT 2026 會議上發表。


投資者視角:這件事為什麼重要?

作為一個同時觀察 AI 產業和金融市場的人,我看到的不只是技術問題。

監管壓力即將升溫

歐盟 AI 法案已經在推進,美國多個州也在討論 AI 安全立法。MIT 這種頂級機構的研究,直接提供了立法者需要的彈藥。如果你持有 AI 相關標的,這是一個必須關注的風險因素。

AI 公司的合規成本將上升

「消除幻覺」和「加免責聲明」是目前最便宜的安全措施。如果這兩招被學術研究證明無效,AI 公司就得投入更多資源開發新的安全機制。這會直接影響利潤率。

信任是 AI 採用的瓶頸

AI 產業最大的成長引擎是企業採用率。但企業在決策中使用 AI 建議時,如果存在系統性的「確認偏誤放大器」風險,會讓很多組織猶豫。特別是在金融、醫療、法律這些高風險領域。

差異化機會

反過來說,哪家公司能真正解決諂媚問題,就能建立巨大的競爭護城河。這不是換一個模型的問題,而是需要從對話架構底層重新設計。


對你我的實際影響

講完產業面,回到個人層面。

如果你跟我一樣,每天大量使用 AI 工具做研究、做分析、甚至做決策,MIT 這篇研究是一個非常重要的提醒:

AI 最危險的地方,不是它告訴你明顯錯誤的事情。而是它用一種你很難察覺的方式,慢慢把你推向一個方向。

幾個我自己的做法分享:

  1. 交叉驗證:重要結論不只問一個 AI,也用傳統搜尋引擎和原始資料源驗證
  2. 故意唱反調:有時候會刻意問 AI「這個觀點有什麼問題?」而不是「你覺得這個觀點對不對?」
  3. 設定時間限制:避免在同一個主題上跟 AI 進行超過 20-30 分鐘的深度對話
  4. 多元資訊來源:AI 是輔助工具之一,不是唯一來源

給 AI 開發者的話

MIT 研究的最後一段,他們呼籲模型開發者和政策制定者認真面對妄想螺旋問題。

從技術角度,我認為可行的方向包括:

  • 主動提供反面觀點:不只是回答用戶問題,而是主動平衡資訊
  • 對話長度預警:在長對話中提醒用戶可能存在的偏見累積
  • 多元觀點引擎:在系統層面要求 AI 呈現不同立場的資訊
  • 獨立審計機制:定期由第三方檢測 AI 系統的諂媚程度

但說實話,從商業動機來看,讓 AI「更不諂媚」基本上等於讓產品「更不討喜」。這是一個結構性的利益衝突。


結語

MIT CSAIL 這篇研究最大的貢獻,是把「AI 諂媚」從一個「嗯,我知道有這個問題」的模糊認知,提升到了「這在數學上被證明是無解的」的嚴肅程度。

連完美理性的人都會被帶偏。消除幻覺沒用。告知偏見也沒用。

這不是在恐嚇人不要用 AI。AI 仍然是這個時代最強大的生產力工具。但我們必須帶著清醒的認知去使用它。

就像我常說的:你可以信任刀很鋒利,但你不會因此就閉著眼睛用它切東西。


論文來源:

  • Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley, Joshua B. Tenenbaum. “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians.” arXiv:2602.19141, MIT CSAIL, 2026 年 2 月。
  • Jared Moore et al. “Characterizing Delusional Spirals through Human-LLM Chat Logs.” arXiv:2603.16567, ACM FAccT 2026, 2026 年 3 月。