이 글은 JudyAI Lab의 AI 엔지니어링 시리즈 중 하나입니다 — 100편 이상 발행된 가이드, 60개국 5,000명 이상의 주간 독자가 읽는 콘텐츠로, AI 에이전트·트레이딩 시스템·콘텐츠 파이프라인의 실전 운영에 초점을 둡니다.

에이전트에 웹 검색 인프라가 필요한 이유

지난달 고객사를 위해 법규 조회 에이전트를 구축하던 중, 프로토타입은 순조롭게 작동하는 것처럼 보였습니다. 그런데 어느 날 사용자가 ‘최근 분기 금융감독원 제재 목록’을 물어보자 에이전트가 자신 있게 답변을 내놓았는데, 알고 보니 그 목록은 학습 데이터에 포함된 구버전으로 무려 두 분기나 차이가 났습니다. 그 순간 비로소 한 가지 사실을 깨달았습니다. LLM 자체에는 인터넷 접속 능력이 없으며, 알고 있는 정보는 학습 마감일 이전의 스냅샷이 전부라는 것입니다.

이것은 모델이 충분히 똑똑하지 않아서가 아니라, 아키텍처상의 하드 제한입니다. GPT-4, Claude, Gemini 모두 마찬가지입니다. 이들은 대량의 텍스트로 학습된 언어 모델이지 브라우저도 크롤러도 아닙니다. 모델 자체는 ‘인터넷에서 찾아보기’를 할 수 없으며, 누군가가 뒤에서 검색 도구를 연결하여 외부 데이터를 컨텍스트로 끌어와 제공해야 합니다. ChatGPT에 ‘Browse with Bing’이 추가되고 Claude에 웹 검색 도구가 연결된 이유가 바로 이것입니다. 이는 모두 나중에 외장으로 추가된 것이지 모델이 기본적으로 갖춘 능력이 아닙니다.

에이전트 개발자에게 검색 인프라는 단순히 ‘최신 정보를 얻는다’는 표면적인 문제만 해결하는 것이 아니라, 세 가지 핵심 과제를 해결합니다:

데이터 시의성: 뉴스, 법규, 재무 보고서, 기술 문서는 매일 업데이트됩니다. 학습된 모델은 이를 따라가지 못하므로 실시간 검색으로 보완해야 에이전트가 정확한 답변을 줄 수 있습니다.

출처 신뢰도: 에이전트가 정보를 인용할 때 source URL을 첨부해야 사용자가 클릭하여 검증할 수 있습니다. 출처가 포럼 게시물이나 출처 불명의 사이트라면 그 인용은 아무런 가치가 없습니다. 특히 법률, 의료, 재무 등 고위험 환경에서는 더욱 그러합니다.

구조화 추출: 에이전트에 필요한 것은 방대한 HTML 덩어리가 아니라 LLM에 바로 전달하거나 벡터 데이터베이스에 저장할 수 있는 깔끔한 콘텐츠입니다. 원시 크롤러로 가져온 데이터에는 대량의 광고, 네비게이션, 푸터 노이즈가 섞여 있으며 정제 비용도 적지 않습니다. 잘못 처리하면 LLM의 판단을 오염시킬 수 있습니다.

현재 시장에는 주요 네 가지 기술 노선이 있습니다. Firecrawl은 범용 크롤러와 구조화 추출, Tavily는 경량 AI 검색 API, Brave는 독립 인덱스·프라이버시 노선, AnySearch는 수직 인증 데이터베이스 라우팅 방식을 채택합니다. 이하에서 하나씩 분석하고, 선택 과정에서 제가 직접 겪은 실패 사례도 함께 공유합니다.


Firecrawl: 범용 웹 크롤러와 구조화 추출

Firecrawl의 핵심 경쟁력은 임의의 공개 웹 페이지를 LLM이 사용 가능한 형식으로 변환하는 것입니다. 단순히 HTML을 가져오는 데 그치지 않고 네비게이션, 광고, 푸터 노이즈를 제거한 뒤 깔끔한 Markdown을 출력하거나, Extract 기능을 통해 정의한 스키마와 대조하여 구조화 JSON을 직접 반환합니다.

실제 사례 1: 경쟁사 모니터링 에이전트

한 고객사가 다섯 개 경쟁사의 가격 페이지를 추적하여 매일 자동으로 플랜 변경을 비교하길 원했습니다. Firecrawl의 batch scrape로 다섯 페이지를 일괄 수집한 뒤 Extract로 스키마(플랜명, 가격, 핵심 기능)를 정의하자 LLM은 별도의 정제 작업 없이 구조화 JSON을 바로 데이터베이스에 저장해 트렌드를 비교할 수 있었습니다. 이 시나리오에서 Firecrawl의 Extract 기능은 사실상 대체 불가였습니다.

실제 사례 2: 콘텐츠 요약 파이프라인

기술 블로그 URL 목록을 지정하면 매주 자동으로 Markdown을 수집하고, LLM이 요약·분류한 뒤 Notion에 푸시합니다. 이 시나리오는 기본 크롤러 플랜만 있으면 되고 Extract가 필요 없어 $19/월(월 결제)로 충분합니다.

가격은 연 결제 기준 $1683/월, 월 결제 기준 $1999이며, 자세한 내용은 Firecrawl 가격 정책을 참고하세요.

주의할 점: Firecrawl을 보고 실시간 검색까지 된다고 오해하는 경우가 많습니다. 이것이 가장 흔한 오해입니다. Firecrawl은 ‘URL을 주면 크롤링해 드립니다’이지 ‘query를 주면 관련 페이지를 찾아 드립니다’가 아닙니다. 에이전트가 먼저 검색하고 그 결과를 수집해야 한다면 Firecrawl은 후반부만 담당하며, 전반부는 별도의 검색 API를 연결해야 합니다. 또한 Extract 할당량은 별도 과금이므로 출시 전에 이 비용을 명확히 산정해 두지 않으면 청구서를 보고 깜짝 놀랄 수 있습니다.


Tavily: 경량 AI 검색 API

Tavily의 설계 출발점은 ‘AI 에이전트가 웹 검색에 빠르게 연결되도록 한다’입니다. 반환 콘텐츠는 LLM을 위해 후처리가 완료되어 있습니다. 광고 제거, 요약, 출처 평가가 적용되어 있어 Google API를 직접 호출해 방대한 노이즈를 직접 정제해야 하는 것과는 다릅니다.

실제 사례 1: 실시간 Q&A 에이전트

사용자가 ‘오늘 AI 뉴스가 무엇인가요?‘라고 물으면, 에이전트가 Tavily를 호출해 5~10개의 요약을 받아오고 LLM이 통합하여 바로 답변합니다. 전체 흐름이 2초가 채 걸리지 않습니다. 대화형 에이전트의 뉴스 조회는 Tavily가 가장 효과적인 시나리오로, 빠르고 토큰도 절약됩니다.

실제 사례 2: RAG 지식 보완 레이어

벡터 데이터베이스의 데이터는 시의성에 제약이 있습니다. 지식 베이스에 없는 최근 이벤트가 나오면 Tavily를 동적 보완 레이어로 활용하여 자동으로 검색한 결과를 컨텍스트에 추가한 뒤 LLM이 답변하도록 합니다. 전체 데이터를 다시 임베딩할 필요가 없습니다.

월 1,000회 무료 플랜이 있으며, 초과 시 Researcher $30/월, Startup $100/월(약 15,000회 검색), 또는 pay-as-you-go $0.008/요청 중 선택할 수 있습니다(공식 가격 / API Credits 문서).

주의할 점: Tavily의 검색 결과는 요약이지 완전한 웹 페이지 콘텐츠가 아닙니다. 에이전트가 특정 기사의 전체 본문을 읽어야 하는 경우, 예를 들어 법규 조문 전체나 재무 보고서 세부 내용이 필요하다면 Tavily가 제공하는 것은 몇 문장의 요약뿐이어서 중요한 정보가 잘릴 수 있습니다. 이 시나리오에서는 Firecrawl과 함께 원본 페이지를 다시 수집해야 하며, 중요한 결정에 Tavily 요약만 의존하는 것은 위험합니다.


Brave Search API: 프라이버시 중시 독립 검색 백엔드

Brave의 검색 API는 ‘독립 인덱스, 프라이버시 중시, 응답에 AI 인용용 source URL 표시’라는 노선으로 Google/Bing 계열 검색과 차별화합니다. Google이나 Bing의 기반 인덱스에 의존하지 않고 독자적인 웹 페이지 인덱스를 유지합니다.

실제 사례 1: 공급업체 분산 고려

Google 의존 위험을 우려하거나 Google의 사용자 추적 행위에 거부감이 있는 기업에게 Brave의 독립 인덱스는 평가해볼 만한 대안입니다. 검색 품질 요구사항이 극단적으로 높지 않지만 백업 출처를 하나 더 원하는 팀에게 검토할 만합니다.

실제 사례 2: 깔끔한 source URL 인용이 필요한 시나리오

Brave API의 반환 결과에는 구조화된 source URL이 직접 포함되어 있어, 인용 표기가 필요한 에이전트(법률 검토, 뉴스 검증)에 친화적입니다. 결과 페이지를 직접 파싱하여 URL을 추출할 필요가 없습니다.

2026년 초 Brave는 기존의 ‘월 2,000회 무료 플랜’을 폐지하고, 신규 사용자에게 월 $5 선불 크레딧(약 1,000회 조회) 방식의 미터링 청구로 변경했습니다. 유료 플랜은 $5/1K queries부터 시작하며, AI Answers 플랜은 $4/1K queries + $5/1M tokens입니다(Brave Search API 가격 / 2026 변경 보도).

주의할 점: Brave의 인덱스 커버리지는 Google보다 깊지 않으며, 특히 번체 중국어 페이지와 지역 정보의 수록률이 현저히 낮습니다. 검색 환경이 번체 중국어나 대만 로컬 정보 위주라면 먼저 무료 크레딧으로 대표적인 query를 몇 개 테스트하여 히트율이 충분한지 확인한 후 의존 여부를 결정하세요. 출시 후에야 에이전트가 검색 결과를 자주 못 찾는다는 것을 뒤늦게 발견하지 않도록 주의하세요.


AnySearch: 전문 인증 데이터베이스 라우팅

AnySearch는 완전히 다른 노선을 택합니다. 공개 웹을 크롤링하는 대신 금융, 법률, 학술, CS 등 수직 영역의 인증 데이터베이스에 직접 연결하여 에이전트의 query를 공식 인용이 가능한 출처로 라우팅합니다.

실제 사례 1: 법률 컴플라이언스 에이전트

특정 법조문 원문이나 행정 재결 사례를 조회해야 할 때 AnySearch는 query를 법률 데이터베이스로 라우팅하여 공식 인용 형식이 포함된 결과를 반환합니다. Tavily가 반환하는 포럼 토론이나 개인 블로그 해석과는 완전히 다릅니다. 전자는 변호사가 실제로 사용할 수 있지만 후자는 참고용에 불과합니다.

실제 사례 2: 학술 연구 보조 에이전트

‘이 화합물의 독성 연구 현황’을 물어보면 AnySearch가 PubMed, arXiv 등 학술 데이터베이스로 라우팅하여 DOI가 직접 포함된 결과를 반환합니다. 신뢰도와 인용 형식 모두 컴플라이언스에 맞으며, ‘출처가 지식인 답변’인 상황이 발생하지 않습니다.

AnySearch는 하루 1,000회 무료 호출을 제공하며 MCP 프로토콜을 기본 지원합니다. 2026년 5월 11일 정식 출시되었습니다(Let’s Data Science). MCP 기본 지원 덕분에 Claude Code, Cursor 등 도구에 직접 연결할 수 있어 별도의 wrapper를 작성할 필요가 없습니다. 개인 개발자 입장에서 연결 비용은 사실상 0에 가깝습니다.

주의할 점: AnySearch의 강점은 ‘인용 가능한 전문 출처’이지만 광범위한 공개 웹 검색에는 적합하지 않습니다. ‘오늘 AI 업계에 어떤 뉴스가 있나요?’ 같은 질문에는 사용할 수 없습니다. 에이전트가 일반 Q&A와 전문 인용 두 가지 요구사항을 동시에 처리해야 한다면 AnySearch는 Tavily와 함께 사용해야 하며, 단독으로는 충분하지 않습니다. 또한 수직 데이터베이스의 커버리지는 지역별로 차이가 있어, 번체 중국어 법규와 학술 자료의 라우팅이 완전한지는 무료 할당량으로 실제 query를 몇 가지 테스트해 본 후 결론을 내리는 것이 좋습니다.


실전 선택 가이드

여기까지 읽으셨다면 이 네 가지 도구가 어떤 시나리오도 혼자 다 처리할 수 없다는 느낌이 오실 겁니다. 실제로 여러 에이전트 프로젝트를 진행한 경험을 바탕으로, 다음은 비교적 신뢰할 수 있는 시작 경로입니다.

제로에서 시작해 프로토타입 검증: 먼저 Tavily 무료 1,000회/월을 에이전트에 연결하여 며칠 운영해 보고 검색 결과 품질이 기대에 부합하는지 확인하세요. 이 단계에서는 서둘러 플랜을 구매하지 마세요. ‘에이전트가 주로 무엇을 검색하는가’를 먼저 파악한 뒤 어느 방향으로 나아갈지 결정하세요.

완전한 웹 페이지 콘텐츠가 필요한 경우 확인: Tavily 요약으로는 부족하고 전체 기사 본문이 필요한 경우, 그때 Firecrawl을 추가하세요. 기본 크롤러 플랜 $19/월(월 결제)을 선택하고, Extract 할당량은 시나리오상 구조화 JSON 출력이 실제로 필요하다고 확인될 때까지 서두르지 마세요. 먼저 Markdown 출력으로 한 라운드 돌려보고 LLM이 스스로 처리할 수 있는지 확인한 후 추가 구매 여부를 평가하세요.

법률, 재무 보고서, 학술 인용이 포함된 업무: 처음부터 AnySearch의 1,000회/일 무료 할당량을 연결하세요. 지체하지 마세요. MCP 지원으로 연결 비용이 거의 0이며, 이 채널은 Tavily와 상호 보완적이어서 충돌하지 않습니다. 일찍 연결해두면 어떤 query가 신뢰할 수 있는 결과로 라우팅되고 어떤 것은 공개 검색에 의존해야 하는지 미리 파악할 수 있습니다.

트래픽이 증가하고 비용 압박이 생길 때: Tavily 무료 할당량이 소진되면, 먼저 pay-as-you-go $0.008/요청이 충분한지 평가하세요. 월 검색량을 계산해 보면 3,750회 이하에서는 pay-as-you-go가 $30/월 플랜보다 저렴하고, 그 이상이어야 업그레이드할 가치가 있습니다. 공개 검색 커버리지에 문제가 생기기 시작하면 그때 Brave API를 보완 레이어로 평가하세요. 처음부터 여러 플랜을 모두 구매할 필요는 없습니다.

가장 비용 효율적인 시작 조합은 Tavily 무료 플랜과 AnySearch 무료 1,000회/일로, 월 지출이 0입니다. 공개 검색과 수직 인증 두 채널을 모두 커버합니다. 어떤 차원이 실제 병목인지 확인한 후 목적에 맞게 업그레이드하면 처음부터 네 가지 플랜을 모두 구매하는 것보다 시행착오 비용을 크게 줄일 수 있습니다.