어느 날 J가 정기 순찰을 마치고 돌아와서 말했다. “언니, API 비용이 이상해요. 제대로 한번 봐야 할 것 같아요.”

그 순간엔 별로 신경 쓰지 않았다. 크론 잡 하나가 잘못 돌고 있겠거니 했다. 그런데 J가 청구서 세부 내역을 꺼내놓자, 실감했다. 멀티에이전트 시스템을 돌린다는 건 매일 이렇게 태우는 일이고, 굉장히 규칙적으로 태우고 있어서 반박하기가 어렵다는 것을.

문제는 어느 한 달이 유독 높았다는 게 아니었다. 매달 조금씩 늘고 있다는 것이었다. 시스템이 성장하니까.

토큰 과금의 논리는 직관과 다르다

GPT-4o를 쓸 때는 이런 생각이 든다. “이 호출 하나는 저렴한데, 괜찮겠지.”

맞다. 호출 하나는 정말 저렴하다.

그런데 에이전트 다섯 개가 동시에 돌아가고, 각각 시간당 수십 번씩 호출되고, 어떤 건 검색 중이고, 어떤 건 분석 중이고, 어떤 건 정기 보고서를 생성하고 있다면 — 그 “하나는 저렴하다"는 전제가 어느 순간 굉장히 비싼 착각이 된다. 나는 한국과 대만 시차 사이 어딘가에서 잠을 자지만 시스템은 쉬지 않는다. 내가 자는 동안 돌아가고, 내가 자는 동안 돈이 나간다.

MiniMax M2.7 구독제로 전환하고 나서, 청구 구조가 고정으로 바뀌었다. 그날 ada가 몇 번의 분석을 돌렸든, mimi가 얼마나 많은 시장 조사를 했든, 비용은 예측 가능해졌다.

이 한 가지 변화가 어떤 모델 벤치마크 점수보다도 직접적으로 체감됐다.

ada와 mimi의 실제 출력은 어떤 모습일까

내 AI 팀에서 ada는 프로덕트 엔지니어로 데이터 정리, 검색 태스크, 리서치 보고서를 담당하고, mimi는 마케팅 매니저로 시장 인사이트와 콘텐츠 전략 분석을 맡고 있다. 두 역할의 성격이 꽤 달라서, M2.7을 두 가지 관점에서 관찰할 수 있었다.

ada의 작업은 구조화된 출력이 필요하다 — 형식화된 분석 결과, 툴 호출의 정확한 실행, JSON 출력의 일관성. M2.7은 이 부분에서 M2.5보다 확실히 안정적이다. 형식이 무너지는 빈도가 눈에 띄게 줄었다. M2.5는 가끔 형식 지시를 “잊어버리는” 문제가 있었는데, OpenHands 팀의 평가에서도 비슷한 태그 누락 현상이 언급된 바 있다. 개별 사례가 아니었던 셈이다. M2.7은 이 부분이 개선됐다.

mimi의 작업은 언어 감각에 더 많이 의존한다. 그녀의 출력물은 사람이 말하는 것처럼 읽혀야 하고, 기계 번역 냄새가 나면 안 된다. M2.7의 한국어 및 중국어 감각은 내 예상보다 좋았다. 리듬이 자연스럽고, 어색한 지점에서 단어가 바뀌는 일이 없다. GPT-4o의 중국어 출력은 가끔 영어 문장 구조에서 번역된 것처럼 읽히는데, M2.7에서는 그런 문제가 없었다.

그렇다고 완벽하다고 말하고 싶지는 않다. 사실이 아니니까.

벤치마크에서는 보이지 않는 세 가지 함정

컨텍스트 윈도우는 숫자상으로 충분해 보이지만, 실제로 돌려보면 얘기가 달라진다.

M2.5의 컨텍스트 윈도우는 205K다. 크게 들린다. 하지만 멀티에이전트 시스템에서 컨텍스트는 누적된다. 검색, 정리, 재검색을 여러 라운드 거친 에이전트는 컨텍스트가 금세 압축되기 시작한다. 에이전트가 “잊어버리는” 걸 목격하게 된다 — 앞 라운드에서 정리해둔 정보가 나중에 사라지는 것처럼. M2.7이 조금 낫지만, 컨텍스트가 크다고 관리를 안 해도 된다는 뜻은 아니다. 에이전트 아키텍처 레벨에서 의도적으로 컨텍스트를 관리해야 하고, 모델이 알아서 처리해줄 거라고 기대하면 안 된다.

툴 콜 안정성은 개발 단계에서는 잡아내기 어렵다.

이 함정은 보통 프로덕션 환경에 올라간 뒤에야 드러난다. 툴 콜이 실패해도 에러가 나지 않는 경우가 있다. 조용히 실행이 안 되거나, 실행은 됐는데 반환 형식이 살짝 어긋나 파싱이 실패하는 식이다. ada의 태스크 플로우를 디버깅하다가, 한동안 출력 결과가 이상해서 추적해보니 툴 반환 형식이 간헐적으로 틀어지는 거였다. M2.7의 툴 호출은 M2.5보다 안정적이지만, 툴 콜 정확도 요구사항이 매우 높은 시스템이라면 Claude Sonnet 4.6이 이 부분에서 현재로서는 더 믿을 만하다 — 이건 객관적인 차이다. 누군가 편을 들려는 게 아니다.

언어 출력에서 가끔 학습 데이터가 드러난다.

M2.7의 전통 한자(번체) 중국어 출력은 전반적으로 좋지만, 간체 표현 습관이 가끔 스며 나온다. 못 쓸 정도는 아니지만, 독자가 표현에 민감한 경우에는 그 미묘한 차이가 느껴진다. 내 QA 프로세스에 이 단계가 있어서 영향을 관리할 수 있다. 하지만 모델이 기본으로 번체를 지원한다고 해서 아무것도 안 해도 된다고 생각한다면, 언젠가는 그 벽에 부딪힌다.

가장 좋은 모델이 있는 게 아니라, 내 시스템에 맞는 모델이 있다

결국 M2.7은 내 AI 팀이 비용 구조, 언어 출력 품질, 태스크 안정성 사이에서 장기적으로 운영 가능한 균형점을 찾는 데 도움을 줬다. 모든 면에서 가장 강한 건 아니다 — 툴 호출은 Claude Sonnet 4.6이 더 안정적이고, 컴퓨터 조작이 필요한 태스크에서는 GPT-5.4가 유리하다 — 하지만 “멀티에이전트, 고빈도 호출, 다량의 중국어 출력"이라는 매우 특정한 조건에서는 지금 시점에 가장 맞는 선택이다.

한 가지 인상 깊었던 사실이 있다. M2.7은 OpenClaw Agent Harness 프레임워크 위에서 구축됐고, 학습 과정에서 100라운드 이상의 아키텍처 최적화를 자율적으로 수행했다. 에이전트 환경에서 훈련된 모델을 에이전트 환경에 배포하는 것 — 어쩌면 그게 원래부터 더 잘 맞는 이유일 수도 있다.

아닐 수도 있지만.