이 글은 JudyAI Lab의 AI 엔지니어링 시리즈 중 하나입니다 — 100편 이상 발행된 가이드, 60개국 5,000명 이상의 주간 독자가 읽는 콘텐츠로, AI 에이전트·트레이딩 시스템·콘텐츠 파이프라인의 실전 운영에 초점을 둡니다.
Section 1 — 왜 저렴한 모델을 80% 수준으로 끌어올려야 하는가
저는 현재 6개의 AI 에이전트를 운영하고 있으며, 매일 처리하는 작업 중 상당 부분이 글쓰기입니다: 블로그 글, 뉴스 논평, 제품 설명, X 트윗, 뉴스레터 요약.
처음에는 전부 Claude Sonnet으로 돌렸습니다. 결과는 좋았지만 청구서가 빠르게 불어났습니다. Sonnet 4.6의 OpenRouter 가격은 input $3/M 토큰, output $15/M 토큰입니다. 글쓰기 작업의 특성상 output이 대부분을 차지합니다 — 500자 글 한 편을 쓸 때 input은 800 토큰(프롬프트 + 시스템 명령) 정도지만 output은 가볍게 700 토큰을 넘습니다. 환산해보면 output 비용이 input의 5~10배에 달합니다.
그래서 Hermes 3 405B와 비교해봤습니다: input $1/M, output $1/M.
input은 Sonnet의 1/3, output은 Sonnet의 1/15 수준입니다. 글쓰기 시나리오의 실제 총비용을 계산해보면 프롬프트 길이에 따라 Sonnet의 1/6~1/12 정도입니다.
솔깃한 조건이지만 문제가 바로 드러났습니다. Hermes는 영어 위주로 학습된 오픈소스 모델이라 중국어 글쓰기 능력과 Sonnet 사이의 격차가 상당히 큽니다. 문법 문제가 아닙니다(문법은 크게 틀리지 않습니다). 관점 밀도, 어조 절제, 도입부 방식 같은 것들입니다. Hermes가 기본 설정으로 생성하는 글은 마치 AI 블로그를 기계 번역한 것처럼 읽히고, ‘의심할 여지 없이 좋은 소식이다’ ‘함께 이야기해봐요’ 같은 상투어로 가득합니다.
파이프라인에 그대로 교체하는 건 불가능했습니다. Sonnet의 스타일은 하늘에서 떨어진 것이 아닙니다 — Sonnet 뒤에는 Anthropic이 방대한 인간 피드백으로 조율해낸 결과물이 있습니다. Hermes에는 기본적으로 그 레이어가 없습니다.
하지만 ‘직접 교체할 수 없다’는 것이 ‘쓸 수 없다’는 의미는 아닙니다. 바로 이것이 프롬프트 엔지니어링이 해결해야 할 문제입니다: 정교하게 설계된 system prompt로 저렴한 모델의 출력 품질을 충분히 쓸 수 있는 수준까지 끌어올릴 수 있을까요?
이 글의 핵심 답변은 이렇습니다: 주제에 따라 가능한 것도 있고 불가능한 것도 있으며, 작업 유형에 따라 다릅니다. AI 뉴스 한 건을 동일한 프롬프트로 세 번 실행해 격차가 어디서 나는지 직접 보여드리겠습니다.
Section 2 — 같은 뉴스 프롬프트를 세 번 실행하기
비교를 공정하게 하기 위해 모델 자체와 무관한 중립적인 AI 뉴스를 골랐습니다:
「Gemini 3.1 Flash-Lite 백만 input 토큰당 $0.25, GPT-5.4 Nano는 $0.20까지 — 경량 모델 가격 전쟁 과열」
공통 프롬프트는:
블로그 글 도입부를 300~350자, 번체 중국어로 써주세요. 이 뉴스에 대한 논평으로, 구체적인 장면에서 시작하고 관점이 있어야 하며 PR 보도자료처럼 쓰지 마세요.
세 개의 출력 결과 모두 동일한 user 프롬프트를 사용했습니다. 차이는 system prompt에 있습니다: A 그룹은 HERMES_SYSTEM="You are a writer."만 설정해 모든 기본 로드 메커니즘을 우회했습니다(이것이 우리가 말하는 ‘베어메탈’입니다); B 그룹은 커스텀 system prompt 없이 Sonnet을 사용했습니다; C 그룹은 call_hermes.sh 기본 흐름을 거쳐 스타일 가이드 + few-shot + 제약 목록을 자동 로드했습니다.
즉, A와 C는 ‘같은 모델, 다른 조교’ 비교이고, B는 ‘목표 수준’의 참조점입니다.
A. 베어메탈 Hermes (스타일 가이드 없음, few-shot 없음)
最近幾週,我注意到一些有趣的變化在AI模型的世界裡。我的一個開發者朋友興奮地告訴我,有幾家模型商正在瘋狂地降低他們的輕量模型價格。Gemini 3.1 Flash-Lite 現在每百萬輸入 Token 只需要 $0.25,而 GPT-5.4 Nano 更是下探到了 $0.20。這場價格戰顯然已經白熱化,各家廠商都在努力推出更便宜的版本來吸引開發者市場。
這樣的變化讓我不禁思考,AI 的民主化是不是正在加速進行?過去,高質量的AI模型通常只限於大公司或研究機構使用,但現在看來,即使是獨立開發者或小公司也能負擔得起這些先進的技術。這對於創新來說無疑是一個好消息。
但另一方面,我也忍不住擔心這場價格戰會不會對AI產業帶來一些負面影響。過度的競爭可能導致某些公司為了生存而犧牲品質或倫理標準。
希望這能為技術創新帶來更多可能性,也希望這場競爭能夠在一個健康的框架下進行。如果你也對這些變化有所關注,不妨分享你的觀察和想法,我們一起來聊聊吧!
평가 — 문제는 네 가지에 집중됩니다:
AI 빈말 도입부: ‘최근 몇 주, 저는 AI 모델 세계에서 흥미로운 변화를 발견했습니다’ — 이 문장은 정보량이 전혀 없으며 어떤 AI도 생성할 수 있습니다.
공중에 뜬 상투적 질문: ‘AI의 민주화가 가속화되고 있는 건 아닐까요?’ 질문을 던지고 진짜 답변은 없어, 독자는 허공에 남겨집니다.
만능 빈말 결론: ‘이것은 의심할 여지 없이 혁신에 좋은 소식이다’ ‘이것이 기술 혁신에 더 많은 가능성을 가져다주길 바랍니다’ — 이 두 문장은 어떤 AI 뉴스 논평에도 끼워 넣을 수 있으며, 구체성이 전혀 없습니다.
판에 박힌 마무리: ‘당신의 관찰과 생각을 공유하고, 함께 이야기해봐요’ — PR 보도자료 형식입니다.
하나 더: ‘質量’은 중국 대륙 용어로, 대만에서는 ‘品質’이라고 씁니다.
이것이 LLM의 ‘평균값 글쓰기’입니다 — 구체적인 장면도, 반직관적 관점도, 개인적 시각도 없습니다. 모델이 하는 일은 가장 안전하고 가장 실수가 없는 방식으로 지시를 완수하는 것입니다.
B. Claude Sonnet (목표 수준)
上個月我幫一個小專案串了一個摘要 API,跑了大概兩週,月底一看帳單:$1.80。
我愣了一下——不是因為貴,是因為太便宜了。這個 API 一天大概被呼叫幾百次,幫我省掉的時間少說值幾千塊,但我付的錢還不夠買一杯手搖。
然後這週看到消息:Gemini 3.1 Flash-Lite 每百萬 token 降到 $0.25,GPT-5.4 Nano 更殺,直接推到 $0.20。輕量模型的價格戰已經不是在打折,是在重新定義「AI 算不算有成本」這件事。
我的第一個反應不是「太棒了好便宜」,而是:這個趨勢對誰有利,對誰是噩耗?
對開發者來說,當然是好事。以前一個小工具要估算 API 費用會讓人猶豫,現在根本不值得花時間算。但反過來想,當成本接近零,競爭優勢就從「能不能用 AI」移到「用得好不好」。便宜讓進入門檻消失,但也讓差異化更難做。
更值得想的是:這輪降價背後,Google 和 OpenAI 搶的不是你手邊這幾塊錢的 API 費,他們要的是你把整個工作流鎖進他們的生態系。今天 $0.20 很香,明天你的系統全部依賴這個模型,漲回 $0.80 的時候你怎麼辦?
便宜是入口,不是終點。
평가 — 왜 이것이 목표 수준인가:
구체적인 도입부: 지난달 + 요약 API + $1.80 청구서 + ‘타피오카 음료 한 잔도 못 살 돈’이라는 반전감. 이 도입부는 첫 세 줄에서 세 겹의 정보를 쌓습니다: 시간, 장면, 반직관적 감각.
반직관적 통찰: ‘비싼 게 아니라 너무 싸다’는 한 마디가 독자의 기대를 뒤집습니다. ‘AI에 비용이 있다는 개념 자체를 재정의한다’는 각도는 베어메탈 Hermes에 전혀 없습니다.
다층적 관점: 개발자에게 유리 / 차별화가 오히려 더 어려워짐 / 장기적 생태계 잠금 위험. 세 가지 관점이 300자 안에 모두 담겼습니다.
마무리는 관찰이지 초대가 아님: ‘저렴함은 입구이지 종착점이 아니다’ — 한 마디에 자신의 입장이 담겨 있습니다.
이 300자 안에 반직관적 관점이 세 개 있습니다. 이것이 Sonnet과 베어메탈 Hermes의 진짜 격차입니다 — 중국어 문법이 아니라 관점 밀도입니다.
C. 조교된 Hermes (v1, 약 70% 수준)
3月底那天,我在首爾的辦公室整理一個客製化的AI語音助手,準備上線前突然想檢查一下成本。一個接一個翻過去,眼睛停在一個數字上:這個月,光是API調用就花了我120萬韓元。我愣了一下,心想「怎麼可能?」
就在這時,新聞滾動條上跳出一條消息:Gemini 3.1 Flash-Lite 每百萬輸入 Token 推到 $0.25,GPT-5.4 Nano 更是下探到 $0.20。原來是輕量模型價格戰白熱化,各家模型商紛紛推出更便宜版本搶佔開發者市場。
這場價格戰看似開發者的福音,實則是一場雙刃劍。對於我們這些獨立開發者和小團隊來說,成本下降當然是好消息,但背後隱藏的卻是更激烈的競爭和更高的入門門檻。
在這場戰役中,真正的贏家恐怕是那些能夠在降低成本的同時,保持高品質服務的模型商。隨著價格不斷下探,模型間的競爭將不再是價格,而是效能和可靠性。對於我們開發者來說,能否在這場浪潮中找到自己的立足之地,將是一個巨大的挑戰。
평가 — 무엇이 나아졌고, 무엇이 여전히 부족한가:
나아진 점: 도입부에 구체적인 장면이 생겼습니다(3월 말 + 서울 사무실 + AI 음성 도우미 + 120만 원 청구서). ‘최근 몇 주’는 사라졌습니다. 상투적 질문도 없습니다. ‘함께 이야기해봐요’도 보이지 않습니다.
여전히 부족한 것: ‘뉴스 스크롤 바에서 소식이 튀어나왔다’는 의도적으로 연출한 극적 우연이고, Sonnet은 그냥 ‘이번 주에 소식을 봤다’고 자연스럽게 씁니다. 논의 단락에는 여전히 AI 상투어가 남아 있습니다: ‘진정한 승자는 아마도’ ‘거대한 도전’ ‘이 물결 속에서’ ‘양날의 검’. 가장 핵심적인 것은: Sonnet의 반직관적 통찰이 없습니다 — ‘저렴함은 입구이지 종착점이 아니다’도, ‘생태계 잠금’이라는 각도도, ‘가능 여부에서 품질로 차별화가 이동한다’는 추론도 없습니다.
관점 밀도는 Sonnet의 절반 정도입니다.
이것이 ~70% 수준입니다: 구조는 잡혔고 어감도 따라왔지만, 추론의 깊이가 부족합니다.
Section 3 — 우리가 사용하는 5가지 조교 방법
조교는 한 번 설계하고 끝나는 일이 아닙니다. 다음은 우리가 실제로 사용하는 5가지 방법으로, 하나도 빠져서는 안 됩니다.
3.1 스타일 가이드 파일 (202줄)
저는 ‘Judy가 어떻게 쓰는가’를 하나의 문서로 정리했습니다: Judy寫作風格整理.md, 9,912바이트, 202줄. 내용은 몇 개의 블록으로 나뉩니다: 핵심 정체성(서울에 있는 대만인 AI 구축가, KOL도 협찬 계정도 아닌), 사고 구조(관찰 → 쟁점 → 개인 경험 → 열린 통찰), 어조 지침(절제, 설교하지 않음, 입장은 있되 과격하지 않음), 즐겨 쓰는 전환어 목록, 금지 단어 목록, 문장 패턴 특성.
call_hermes.sh를 통해 매번 호출 전 이 문서를 자동으로 system prompt에 로드합니다. (단, HERMES_SYSTEM 환경 변수를 설정하면 덮어쓸 수 있습니다 — 위의 A 그룹 베어메탈 Hermes는 이 메커니즘으로 만든 비교군입니다.)
핵심은 문서의 형식이 아니라 ‘문서화’ 자체입니다. 당신 머릿속의 스타일 직관 — ‘큰따옴표로 키워드를 감싸는 걸 좋아하지 않는다’ ‘도입부에서 질문하지 않는다’ ‘마무리는 댓글 초대가 아니라 관점으로 한다’ — 이런 직관은 모델이 볼 수 없습니다. 명확한 규칙으로 써야 합니다.
3.2 Few-shot: 최근 블로그 글 3편 자동 로드
초기 버전에서는 프롬프트에 정적 텍스트 예시를 직접 넣었는데, Hermes의 ‘few-shot 학습’이 너무 솔직하다는 걸 발견했습니다 — 예시의 문장 패턴을 그대로 베끼거나, 심지어 단락 전체를 리믹스해서 제 옛날 글을 재조합한 것처럼 읽혔습니다.
수정 방법은 동적 로드로 바꾸는 것이었습니다: 매번 호출 전 content/posts/*.zh-tw.md에서 수정 시간 기준으로 최신 3편을 가져와, 각 앞부분 1,200자를 잘라 few-shot 예시로 주입합니다.
장점은 세 가지입니다: 항상 최신 글쓰기 방식을 반영해 스타일이 자연스럽게 글과 함께 진화합니다; 새 글이 올라오면 자동으로 갱신되어 예시 라이브러리를 별도로 관리할 필요가 없습니다; 앞부분 1,200자만 잘라 전문을 넣지 않으므로 컨텍스트 길이를 제어해 토큰 폭증을 방지합니다.
3.3 제약 목록 (명시적 금지어)
스타일 가이드는 ‘이렇게 써라’를 말하고, 제약 목록은 ‘이렇게 쓰면 안 된다’를 말합니다. 둘은 분리해서 작성해야 하며, 둘 다 필요합니다.
제 주요 금지 항목:
- 이모지(완전 금지)
- 중국 대륙 용어(質量 → 品質, 隱藏, 這場, 厂商)
- 중영어 혼용(기술 용어가 아니면 영어를 섞지 않음)
- 상투적 질문(‘X가 가속화되고 있는 건 아닐까요?’ 같은 공중에 뜬 의문)
- 드라마틱한 상투 표현(‘뉴스 스크롤 바가 튀어나왔다’ ‘바로 그 순간’ 같은 영화 같은 전환)
- AI 상투어 목록: ‘의심할 여지 없이’ ‘진정한 승자’ ‘거대한 도전’ ‘이 물결 속에서’ ‘양날의 검’
이 목록은 user 프롬프트에 넣어 매번 반복해서 붙입니다.
3.4 텍스트 예시가 아닌 구조 템플릿
‘이렇게 써주세요: [완전한 예시 단락]‘이라고 하지 마세요. 그건 텍스트 예시이고, 모델이 베낍니다.
‘도입부 구조 공식: [구체적인 시간] + [구체적인 장소] + [구체적인 행동] + [반전감]‘이라고 주세요. 이건 구조 템플릿이고, 모델이 틀을 채워 오리지널 내용을 만듭니다.
Section 2의 C 파트(조교된 Hermes) 도입부가 바로 이 템플릿의 결과입니다: 3월 말(시간) + 서울 사무실(장소) + AI 음성 도우미 정리(행동) + 120만 원 청구서 ‘어떻게 이럴 수가’(반전). 매번 실행할 때마다 달라지지만, 모두 이 형태를 따릅니다.
3.5 부정 예시 명시
직접 ‘절대 이렇게 쓰지 마세요 ✗‘를 나열하는 것이 긍정 목록보다 효과적입니다.
원리는 이렇습니다: 모델은 ‘권장 신호’보다 ‘금지 신호’에 더 민감합니다. ‘좋은 도입부는 이렇습니다’라고 알려주면 좋은 예시를 템플릿으로 그대로 베낄 수 있습니다; ‘이렇게 쓰는 건 틀렸습니다’라고 알려주면 더 정확하게 회피할 수 있습니다.
저는 이전 버전들의 raw output에서 실패 예시를 직접 가져오는데, 직접 만든 부정 예시보다 효과가 훨씬 좋습니다 — 실제로 그 모델이 생성한 것이라 그 모델 자신의 실패 패턴을 정확히 대응하기 때문입니다.
Section 4 — 중요한 한계 하나: 방법론은 만능이 아니다
솔직히 말하면, 이 5가지 방법이 ‘적용만 하면 80%‘가 되는 만병통치약은 아닙니다.
80%는 평균이지, 모든 작업에서 받아낼 수 있는 천장이 아닙니다. 같은 조교 메커니즘이라도 작업 유형에 따라 효과 차이가 큽니다.
4.1 Hermes가 80%까지 갈 수 있는 작업
명확한 구조 템플릿이 있는 콘텐츠. 뉴스 코멘트, 제품 기능 소개, 튜토리얼 단계 분해, X 포스트, 뉴스레터 요약 — 이런 작업들의 공통점은 도입부, 추론, 결말의 형태가 고정되어 있다는 점입니다. 모델은 그 격자에 구체적인 내용만 채워 넣으면 됩니다. 스타일 가이드 + 구조 템플릿 두 메커니즘이 이런 작업을 받쳐줍니다.
외부 자료가 충분한 앵커가 되는 콘텐츠. 모델에게 보도자료 한 단락, 차트 하나, API 응답 하나를 주고 “자료에 기반해 코멘트를 써달라"고 하면 — Hermes는 자료에 제약된 상황에서 나쁘지 않은 성과를 냅니다. 약점은 ‘무에서 관점을 만드는 것’이지만, ‘자료로부터 확장하는 것’은 할 수 있는 일입니다.
반복성 높고 변동성 낮은 대량 작업. 표준화된 콘텐츠를 대량 생산할 때(뉴스 요약, 포스트, 제품 카피) Hermes로 돌리면 단순히 비용만 싸지는 게 아닙니다. 산출 형태가 수렴하기 때문에 후처리 QA도 더 쉬워집니다.
4.2 Hermes가 여전히 도달하지 못하는 작업
원창적 관점 밀도가 필요한 장문. 튜토리얼, 심층 분석, 사례 회고 같은 글 — Sonnet의 “한 문장으로 독자의 기대를 뒤집는” “동시에 세 층의 독자를 잡는” 능력은 pre-training + RLHF로 쌓인 것이라 prompt engineering으로 메울 수 없습니다. Section 2의 B 그룹 “싼 것은 입구이지 종착점이 아니다” 같은 마무리는 조교된 Hermes도 여전히 쓰지 못합니다.
복잡한 논리 추론. 기술 스택 선택, 전략 backtest 분석, bug 근본 원인 추적 — 이런 작업은 모델이 여러 전제 사이에서 엄밀하게 추론하기를 요구하는데, Hermes는 중간에 한 전제를 건너뛰는 경향이 있어 결론은 그럴듯해 보여도 논리 사슬이 끊어집니다.
장문 일관성. 2,000자가 넘으면 Hermes는 후반부에서 주제 표류, 앞 단락과의 호응 단절, 리듬 반복이 일어납니다. 장문 일관성은 Sonnet이 다른 모델과 차이가 가장 큰 차원 중 하나입니다.
4.3 양자택일이 아니라 하이브리드 전략
실무적인 해답은 “전부 Hermes” 또는 “전부 Sonnet"이 아니라 작업 유형별 라우팅입니다:
- Hermes: X 포스트, 뉴스 요약, 제품 기능 소개, 초안 스케치
- Sonnet: 블로그 튜토리얼, 심층 분석, 케이스 스터디, 전략 결정 문서
- 혼합: 중간 길이 글 — Hermes가 먼저 구조를 잡고, Sonnet이 다시 쓰면서 관점을 더함
이는 4가지 LLM을 동시에 돌리다: 실제 다중 에이전트 팀의 선택과 비용 기록에서 다룬 모델 라우팅 로직과 같은 길입니다 — “어느 게 가장 좋은지가 아니라, 작업마다 충분히 좋은 가장 싼 모델을 찾는 것.”
Hermes를 “쓸 수 없음"에서 “충분히 쓸 만함"으로 끌어올린 이 80% 수준은 prompt engineering이 해낼 수 있는 일입니다. 나머지 20% — 관점 밀도와 장문 논리 — 는 아직 Sonnet의 영역입니다. 그 20%의 차이를 받아들일 수 있는지는 비즈니스 구성에 달려 있습니다. 하루에 표준화된 글을 십수 편 생산해야 하는 팀에게는, 표준화 작업의 80%를 절약하는 것이 모든 것을 만점으로 추구하는 것보다 훨씬 합리적입니다.
더 읽어보기
- 4가지 LLM을 동시에 돌리다: 실제 다중 에이전트 팀의 선택과 비용 기록 — 4개 모델의 실제 분업과 청구서 분석
- 2026 오픈소스 LLM 실전: 우리 AI 팀이 MiniMax M2.7을 선택한 이유 — 또 다른 오픈소스 LLM의 선택 고려사항
- 5개 이상의 다른 모델 AI를 자율적으로 24시간 일하게 만든 방법 — 다중 모델 에이전트 팀의 전체 아키텍처