為什麼 Agent 需要網頁搜尋基礎設施

上個月我在幫客戶做一個法規查詢 Agent,原型跑起來看似順暢,但有一天使用者問到「最新一季的金管會裁罰清單」,Agent 很自信地給了一個答案——結果那份清單是訓練資料裡的舊版,整整差了兩個季度。那一刻我才真正意識到一件事:LLM 本身沒有聯網能力,它知道的東西全部都是訓練截止日之前的快照。

這不是模型不夠聰明,而是架構上的硬限制。GPT-4、Claude、Gemini 都一樣——它們是靠大量文字訓練出來的語言模型,不是瀏覽器,也不是爬蟲。模型本身沒有辦法「上網查一下」,除非有人在背後幫它接一個搜尋工具,把外部資料拉進來當 context 餵給它。這就是為什麼你看到 ChatGPT 加了「Browse with Bing」、Claude 接了 web search tool——那些都是後來外掛的,不是模型原生具備的能力。

對 Agent 開發者來說,搜尋基礎設施解決的不只是「取得最新資訊」這個表面問題,背後還有三個核心挑戰:

資料時效:新聞、法規、財報、技術檔案每天都在更新,訓練好的模型追不上,需要即時搜尋補進來才能讓 Agent 給出正確答案。

來源可信度:Agent 引用資訊時,你需要能附上 source URL,讓使用者可以點進去驗證。如果資料來源是論壇貼文或不明網站,這份引用就沒有任何價值,特別是法律、醫療、財務這類高風險場景。

結構化提取:Agent 需要的不是一大段網頁 HTML,而是乾淨的、能直接傳給 LLM 或存進向量資料庫的內容。原始爬蟲拿到的資料往往夾帶大量廣告、導覽列、頁尾雜訊,清洗成本不低,做不好還會汙染 LLM 的判斷。

目前市場上主要有四條技術路線:Firecrawl 走通用爬蟲加結構化提取、Tavily 走輕量 AI 搜尋 API、Brave 走獨立 index 隱私路線、AnySearch 走垂直認證資料庫路由。以下逐一拆解,也說說我自己選型時踩過的坑。


Firecrawl:通用網頁爬蟲搭配結構化提取

Firecrawl 的核心競爭力是把任意公開網頁轉成 LLM 可用的格式。它不只是抓 HTML,而是幫你去掉導航列、廣告、頁尾雜訊,直接輸出乾淨的 Markdown,或透過 Extract 功能比對你定義的 schema,直接吐出結構化 JSON。

實際場景一:競品監控 Agent

我有個客戶要追蹤五家競品的定價頁,每天自動比較方案變動。用 Firecrawl 的 batch scrape 批次抓回五個頁面,再搭配 Extract 定義 schema(方案名稱、價格、核心功能),LLM 不需要再做任何清洗,直接拿結構化 JSON 存進資料庫做趨勢比較。這個場景裡 Firecrawl 的 Extract 能力幾乎是不可替代的。

實際場景二:內容摘要流水線

指定一批技術部落格的 URL,每週自動抓回 Markdown,送進 LLM 做摘要分類,再推送到 Notion。這個場景只需要基礎爬蟲方案,不需要 Extract,$19/月(月繳)就夠。

定價為 $16-83/月(年繳),月繳則 $19-99,詳見 Firecrawl 定價

踩坑提醒:很多人看到 Firecrawl 就以為它能做即時搜尋,這是最常見的誤解。Firecrawl 是「給我一個 URL,我幫你抓」,不是「給我一個 query,我幫你找相關網頁」。如果你的 Agent 需要先搜尋再抓內容,Firecrawl 只負責後半段,前半段還是得自己接搜尋 API。另外,Extract 額度是分開計費的,上線前要把這塊成本估清楚,不然帳單真的會讓你嚇一跳。


Tavily:輕量級 AI 搜尋 API

Tavily 設計的出發點就是「讓 AI Agent 快速接上網路搜尋」,回傳的內容已針對 LLM 做過後處理——去廣告、摘要、來源評分——不像直接打 Google API 拿回一堆雜訊還要自己清洗。

實際場景一:即時問答 Agent

使用者問「今天有什麼 AI 新聞」,Agent 呼叫 Tavily 拿回五到十篇摘要,LLM 整合後直接回覆,整條鏈路不到兩秒。對話型 Agent 的新聞查詢是 Tavily 最甜蜜的使用場景,快且省 token。

實際場景二:RAG 知識補充層

向量資料庫裡的資料有時效限制,碰到知識庫裡沒有的近期事件,可以用 Tavily 當動態補充層,自動搜尋後把結果加進 context 再讓 LLM 回答,不需要重新 embedding 整批資料。

有 1,000 queries/月的免費方案,超過後付費方案從 Researcher $30/月、Startup $100/月(約 15,000 次搜尋),或 pay-as-you-go $0.008/request 三選一(官方定價 / API Credits 檔案)。

踩坑提醒:Tavily 的搜尋結果是摘要,不是完整網頁內容。如果你的 Agent 需要讀某篇文章的完整正文——比如抓完整的法規條文或財報細節——Tavily 給你的只是幾句摘要,重要資訊很可能被截掉。這個場景要搭配 Firecrawl 再抓一次原始網頁,只靠 Tavily 摘要做重要決策是有風險的。


Brave Search API:注重隱私的獨立搜尋後端

Brave 的搜尋 API 走的是「獨立 index、注重隱私、回應裡標 source URL 給 AI 引用」的路線,跟 Google/Bing 系搜尋做差異化。它不依賴 Google 或 Bing 的底層 index,自己維護一套獨立的網頁索引。

實際場景一:供應商分散考量

部分企業有 Google 依賴風險的考量,或對 Google 追蹤使用者行為有顧慮,Brave 的獨立 index 是一個可評估的替代方案。對搜尋品質要求沒有極端高、但希望多一個備援來源的團隊來說值得評估。

實際場景二:需要乾淨 source URL 的引用場景

Brave API 回傳的結果裡直接帶有結構化的 source URL,對需要做引用標注的 Agent(法律查核、新聞驗證)比較友善,不需要自己再解析結果頁去抽 URL。

2026 年初 Brave 已停掉舊版「2,000 queries/月免費方案」,改成新使用者每月送 $5 prepaid credit(約 1,000 queries)的 metered billing,付費階梯 $5/1K queries 起,AI Answers 方案 $4/1K queries + $5/1M tokens(Brave Search API 定價 / 2026 改版報導)。

踩坑提醒:Brave 的 index 覆蓋深度不如 Google,尤其繁體中文網頁和地區性資訊的收錄率明顯偏低。如果你的搜尋場景以繁體中文或臺灣在地資訊為主,一定要先用免費額度測試幾個典型 query,確認命中率夠用再決定依賴程度,不要等上線後才發現 Agent 常常搜不到結果。


AnySearch:專業認證資料庫路由

AnySearch 走的是完全不同的路線,它不抓公開網頁,而是直接接進金融、法律、學術、CS 等垂直領域的認證資料庫,幫 Agent 把 query 路由到可以被正式引用的來源。

實際場景一:法律合規 Agent

需要查詢特定法條原文或行政裁決案例,AnySearch 可以把 query 路由到法律資料庫,回傳有正式引用格式的結果。這跟 Tavily 拿到的論壇討論或個人部落格解讀完全不同——一個可以被律師拿去用,另一個只能當參考。

實際場景二:學術研究輔助 Agent

問「這個化合物的毒性研究現狀」,AnySearch 可以路由到 PubMed、arXiv 等學術資料庫,結果直接帶 DOI,可信度和引用格式都是合規的,不會出現「參考來源是知乎回答」這種狀況。

AnySearch 提供 1K 次/天免費呼叫,並原生支援 MCP 協定,2026-05-11 正式上線(Let’s Data Science)。MCP 原生支援意味著可以直接接 Claude Code、Cursor 等工具,不需要另外寫 wrapper,對個人開發者來說接入成本幾乎為零。

踩坑提醒:AnySearch 的強項是「可引用的專業來源」,但不適合做廣泛的公開網頁搜尋——你不能拿它來查「今天 AI 圈有什麼新聞」。如果 Agent 需要同時處理一般問答和專業引用兩種需求,AnySearch 要跟 Tavily 搭配,不能只靠它一個。另外,垂直資料庫的覆蓋範圍有地區差異,臺灣法規和中文學術資源的路由是否完整,建議先用免費額度測幾個真實 query 再下結論。


我的選型實戰建議

看到這裡,你大概可以感覺到這四家工具沒有誰能通殺所有場景。根據我實際跑過幾個 Agent 專案的經驗,以下是比較可靠的起步路徑。

從零開始、驗證原型:先用 Tavily 免費 1,000 queries/月,接上你的 Agent 跑幾天,看看搜尋結果品質是否符合預期。這個階段不要急著買方案,先把「Agent 主要在查什麼」這件事搞清楚,再決定要往哪個方向走。

確認需要完整網頁內容:Tavily 的摘要不夠用、需要讀完整文章正文的,這時再加 Firecrawl。選基礎爬蟲方案 $19/月(月繳),先不要急著買 Extract 額度,除非你的場景確實需要結構化 JSON 輸出——先用 Markdown 輸出跑一輪,確認 LLM 能自己處理再評估要不要加購。

任務涉及法律、財報、學術引用:從一開始就把 AnySearch 的 1K/天免費額度接進來,不要等。MCP 支援讓接入成本接近零,而且這條線和 Tavily 是互補的,不會衝突,早點接進來可以先摸清楚哪些 query 路由得到可信結果、哪些還是得靠公開搜尋。

流量上來、開始有成本壓力:Tavily 免費額度耗完後,先評估 pay-as-you-go $0.008/request 夠不夠用,計算一下你的月搜尋量,通常 3,750 次以下 pay-as-you-go 比 $30/月方案便宜,超過才值得升。如果公開搜尋的覆蓋率開始出現問題,這時再評估 Brave API 作為補充層,而不是一開始就多買一個。

最省成本的起步組合是 Tavily 免費方案加 AnySearch 免費 1K/天,月支出為零,公開搜尋和垂直認證兩條線都覆蓋了。等你確認哪個維度是真正的瓶頸,再有針對性地升級,比一開始就把四個方案都買齊省很多試錯成本。