Claude Code로 Skill을 만들어본 적이 있나요?

만들어봤다면 반드시 이 문제에 부딪혔을 겁니다: Skill은 완성했는데, 실제로 작동하는지 전혀 모르겠다는 것.

트리거되어야 할 때 안 되고, 안 되어야 할 때 멋대로 발동되고. 그냥 ‘감’에만 의존할 수밖에 없었죠—뭐, 괜찮겠지 하면서 말이에요.

좋은 소식입니다: Claude 팀이 드디어 나섰습니다. 이번 Skill Creator 업데이트로 “테스팅"과 “품질 검증"이 일급 시민이 되었습니다.


결론부터 말하면: 이 업데이트가 해결하는 문제

한 문장으로 정리하면: “내 Skill 괜찮은 것 같은데"에서 “내 Skill 괜찮다는 걸 안다"로.

이전에는 Skill 하나 만들고 나면 그냥 계속 잘 작동하길 바라는 수밖에 없었습니다. 모델이 업데이트되면 망가져도 모르고, 수정을 하면 더 좋아졌는지 알 수가 없었죠.

이제는 다음이 가능합니다:

  • Skill이 올바르게 트리거되는지 자동 테스트
  • 모든 수정사항의 영향을 정량적으로 측정
  • 두 버전을 나란히 놓고 객관적으로 비교

5대 핵심 기능

1. Eval 테스팅

Skill Creator가 이제 자동으로 테스트 케이스를 생성하여 예상 입력과 출력을 정의하고, Skill이 올바르게 실행되는지 자동으로 검증합니다.

쉽게 말하면: 이전에는 감으로만 판단할 수 있었다면, 이제는 Skill에게 쪽지시험을 치를 수 있습니다. 자동으로 채점해서 뭐가 맞고 뭐가 틀렸는지 정확히 알려줍니다.

실제 사용: Skill Creator에게 “이 Skill의 트리거 정확도를 테스트해줘"라고 하면, 자동으로 20개의 모의 대화 프롬프트를 생성합니다—트리거되어야 하는 시나리오와 그렇지 않은 시나리오 모두 포함해서—그리고 트리거 정확도율을 보고합니다.

2. Benchmark 테스팅

표준화된 성능 평가로 Eval 통과율, 실행 시간, 토큰 사용량을 기록하여 모델 업데이트나 Skill 수정 후 품질 변화를 쉽게 추적할 수 있습니다.

쉽게 말하면: 정기 건강검진 리포트 같은 겁니다. 실행할 때마다 Skill에 대한 성적표를 받아볼 수 있어요—점수, 걸린 시간, 소모된 리소스—성능이 저하되었는지 한눈에 볼 수 있습니다.

3. 멀티 에이전트 병렬 실행

테스트가 이제 여러 독립적인 에이전트가 동시에 실행되며, 각 테스트는 깨끗한 격리 환경에서 실행되어 서로 간섭하지 않습니다.

쉽게 말하면: 이전에는 한 교실에서 한 번에 하나씩 시험치는 것 같아서, 앞선 답변이 뒤의 답변에 영향을 줄 수 있었습니다. 이제는 여러 독립적인 시험실에서 병렬로 진행됩니다. 더 빠르고 더 신뢰할 수 있어요.

4. A/B Comparator

시스템이 두 Skill 버전을 어느 것인지 모른 채 블라인드 테스트하여 어느 것이 더 나은 결과를 만드는지 평가할 수 있습니다.

쉽게 말하면: Skill을 수정했는데 더 좋아졌는지 확신이 서지 않을 때, 공정한 심판이 두 버전을 동시에 블라인드 평가해서 완전히 객관적으로, 자기기만 없이 판단해줍니다.

이 기능은 내부적으로 3개의 독립적인 Agent를 사용합니다:

  • Comparator: 블라인드 비교
  • Grader: 점수 매기기
  • Analyzer: 결과 분석

5. Skill 트리거 설명 최적화

시스템이 Skill의 설명 텍스트를 분석하고 실제 사용 중인 프롬프트와 비교하여 거짓 양성과 거짓 음성을 줄이기 위한 수정사항을 제안합니다.

쉽게 말하면: 모든 Skill은 Claude에게 언제 호출해야 하는지 알려주는 “자기소개"에 의존합니다. 이제 시스템이 그 소개를 다시 써서 필요할 때는 트리거되고 필요 없을 때는 조용히 있도록 보장합니다—직원에게 더 정확한 직무기술서를 써주는 것과 같습니다.


실제로 어떻게 사용하나요?

이런 기능들은 자동으로 작동하지 않습니다. Skill Creator에게 적극적으로 도움을 요청해야 합니다.

권장 워크플로

  1. Skill Creator로 Skill 생성 (기존과 동일)
  2. Skill Creator에게 Eval 테스트를 작성해달라고 요청
  3. 한 번 실행해서 Skill이 작동하는지 확인
  4. 모델을 업데이트하거나 Skill을 수정할 때마다 다시 실행

일반적인 명령어 예시

1
2
3
4
5
6
7
8
"xxx-skill의 트리거율을 테스트해줘"
→ Description 최적화 실행, 테스트 프롬프트 생성

"xxx-skill에 대한 eval 테스트 케이스를 만들어줘"
→ 테스트 케이스 + 예상 출력 자동 생성

"xxx-skill v1과 v2 비교해줘—어느 게 더 좋아?"
→ A/B Comparator 블라인드 테스트 실행

업데이트 방법

이미 Skill Creator를 설치했다면 업데이트는 간단합니다:

Claude Code에게 “skill-creator 업데이트해줘"라고 하거나, 공식 플러그인 저장소에서 최신 버전을 수동으로 가져오면 됩니다.


제 생각

이번 업데이트는 Skill 생태계의 중요한 변곡점입니다.

이전에 Skill의 가장 큰 문제점은 “어떻게 만드는지 모르는 것"이 아니라 “만들고 나서 실제로 좋은지 모르는 것"이었습니다. 한 시간 동안 정성스럽게 튜닝했는데 원래보다 못해졌을 수도 있지만—정량적인 비교 도구가 없어서 절대 알 수 없었죠.

이제 Eval + Benchmark + A/B Comparator로 Skill 개발이 드디어 “수공예"에서 “엔지니어링"으로 진화했습니다.

특히 이 두 상황에서 사용하길 강력 추천합니다:

  1. 모델 업데이트 후: Claude가 새 버전으로 업데이트될 때마다 Benchmark를 실행해서 Skill이 망가지지 않았는지 확인
  2. Skill 수정 후: Comparator로 블라인드 테스트해서 새 버전이 진짜 더 좋아졌는지 확인

감에 의존하지 마세요. 데이터가 말하게 하세요.