이 글은 JudyAI Lab의 AI 엔지니어링 시리즈 중 하나입니다 — 100편 이상 발행된 가이드, 60개국 5,000명 이상의 주간 독자가 읽는 콘텐츠로, AI 에이전트·트레이딩 시스템·콘텐츠 파이프라인의 실전 운영에 초점을 둡니다.

장부 수치는 거짓말한다

우리의 페이퍼 트레이딩 시스템을 한 달 운영했더니 장부상으로는 아주 근사해 보였다:

승률 87.5%, 7승 1패 2무

이 숫자를 보면 보통 사람들의 반응은 “대단해, 이제 실거래 해도 되겠다!“다.

우리의 반응은: “잠깐, 먼저 수학이 말하게 하자.”

이 글은 33건의 실거래로 통계 검증을 마친 결론을 기록한다—그리고 그 87.5%가 왜 착각인지를.

87.5% 승률이 왜 통계적 착각인가

Z-score는 본질적으로 하나의 질문이다: 당신의 성과가 동전 던지기와 비교해서 얼마나 차이 나는가?

$$Z = \frac{\hat{p} - 0.5}{\sqrt{0.5 \times 0.5 / n}}$$

  • $\hat{p}$는 당신의 승률
  • $n$은 거래 건수
  • Z > 1.65이면 95% 확신으로 동전 던지기보다 낫다는 뜻이다(p < 0.05)

간단하게 들리지만, 대부분의 트레이더는 이 검증을 전혀 하지 않는다. 70% 승률을 보고 바로 실거래에 들어갔다가 손실을 보고 나서야 “백테스팅은 분명히 좋았는데"라고 묻는다.

그 87.5%를 공식에 대입해 보면: 8건 표본, 베이지안 조정 후 실제 승률은 60%에 불과하고, p값은 0.24다. 통계학의 답은 단 한 문장이다—당신과 동전 던지기 사이에 유의미한 차이가 없다.

관련 배경이 궁금하다면 페이퍼 트레이딩 월간 보고서: 33건 거래 복기에 전체 거래 내역을 정리해 두었다. 이 글은 통계 검증 방법에 집중한다.

33건 거래 완료, 합격한 전략은 하나도 없다

이미 청산된 33건 거래 전체를 Z-score 검증에 돌렸더니 결과는 다음과 같았다:

전략건수원시 승률조정 승률Z-score유의미?
CEX Volume + Funding1145.5%46.2%-0.30
TradingView 신호862.5%60.0%+0.71
Pipeline728.6%33.3%-1.13
기타728.6%33.3%-1.13
전체3342.4%42.9%-0.87

모든 전략의 p값이 0.05를 초과하며, 통계 검증을 통과한 전략은 단 하나도 없다.

그 87.5% 승률은? 페이퍼 트레이딩 모드에서 8건을 수동으로 관리한 거래일 뿐이다—표본이 너무 작고, 베이지안 조정 후 실제 승률은 60%에 불과하며, p = 0.24다.

첫 번째 결론: 표본이 30건에 미치지 못하면 승률을 논하는 건 너무 이르다.

베이지안 조정: 승률에서 운을 걷어내다

베이지안 조정 메커니즘을 추가했다. Beta(1,1) 사전 분포를 사용해 소표본 승률을 자동으로 50%로 수렴시킨다:

$$\text{조정 승률} = \frac{wins + 1}{total + 2} \times 100%$$

효과:

  • 경우 1: 3건 전승 → 원시 100% → 조정 80%
  • 경우 2: 7승 1패 → 원시 87.5% → 조정 80%
  • 경우 3: 70/100 → 원시 70% → 조정 69.6%(대표본에서는 거의 영향 없음)

이를 통해 ‘3건 100%‘라는 착각에 속지 않는다. 표본이 클수록 조정이 작아지는 것, 바로 우리가 원하는 특성이다.

장부상 플러스 수익이 전략 유효성을 보장하지 않는다

전체 PnL은 **+0.57%**다.

이는 승률이 50% 미만이더라도 리스크 관리가 제대로 작동하고 있다는 의미다: 손실 거래의 평균 손실 < 수익 거래의 평균 이익.

사실 이건 좋은 신호다—시스템이 ‘정확한 예측’이 아니라 ‘많이 벌고 적게 잃기’로 수익을 내고 있다. 하지만 33건이라는 표본 수로는 결론을 내리기 부족하다. 플러스 수익이 한두 건의 큰 수익에서 왔을 수 있다. Z-score로 엣지 존재를 검증한 후에야 비로소 전략이 ‘유효하다’고 말할 수 있다.

전략을 도대체 몇 건이나 거래해야 하나?

실제 승률p < 0.05 달성을 위한 최소 건수
55%~384건
60%~96건
65%~44건
70%~24건

첫째, 승률이 50%에 가까울수록 운과 분리하기 어려워져 필요한 표본 수가 지수적으로 늘어난다. 둘째, 실제 승률 65%의 전략은 약 44건으로 증명 가능하다. 셋째, 우리는 현재 33건에 WR 42%—‘통계적으로 유의미한 엣지’까지는 아직 갈 길이 있다.

실무적 최소 기준: 50건. 그 이하에서 엣지를 논하는 건 너무 이르다.

OFI 과적합 지수: 백테스팅 허수를 잡아라

Z-score 외에 과적합 지수도 추가했다:

$$OFI = \frac{IS_PF}{OOS_PF}$$

IS(샘플 내)의 Profit Factor를 OOS(샘플 외)의 Profit Factor로 나눈 값이다.

  • OFI < 1.5 → 과적합 위험 낮음 ✓
  • OFI 1.5-2.0 → 중간 위험 ⚠️
  • OFI > 2.0 → 과적합 위험 높음 ✗
  • OFI > 3.0 → 심각한 과적합 ✗✗

백테스팅 성과가 실거래보다 훨씬 좋을 때 OFI가 바로 알려준다. 하드코딩된 ‘IS-OOS gap > 15%’ 기준보다 두 표본의 실제 비율 차이를 더 잘 반영한다.

백테스팅 함정에 대한 추가 내용은 트레이딩 개념에서 실제 코드까지: AI는 얼마나 도움이 될까의 후반부를 참고하라.

새로운 전략 판정 로직

이전에는 하드코딩 기준을 사용했다(IS-OOS gap > 15% = 과적합). 이제는 다음으로 변경했다:

1
2
3
4
5
6
거래 < 5건       → "데이터 부족"
p ≥ 0.05         → "통계적 비유의미"
OFI > 2.0        → "과적합"
조정 WR ≥ 62%    → "안정적 ✓"
조정 WR ≥ 58%    → "허용 가능"
기타             → "관찰 중"

두 번째 줄에 주목하자—p ≥ 0.05는 즉시 비유의미로 판정한다. 이전에는 ‘안정적’으로 보이던 많은 전략들이 사실 표본이 부족해 잘못 판정된 것들이었다. 새 로직은 표본 수를 첫 번째 관문으로, p값을 두 번째 관문으로 삼아 소표본 속임수를 먼저 차단한 뒤 OFI와 조정 WR을 확인한다.

그렇다면 우리 전략은 형편없는 건가?

아니다, 우리 전략은 아직 유효함이 증명되지 않은 것이다. 이는 완전히 다른 두 가지 이야기다.

33건 거래는 너무 적다. 우리의 계획은:

  1. 1단계: 계속 데이터를 쌓는다 — 파라미터를 바꾸지 않고 50건 이상 운영
  2. 2단계: 50건 이후 Z-score 재실행 — 특정 전략의 p < 0.05이면 포지션 확대
  3. 3단계: 미달 전략 퇴출 — 50건 이후에도 p > 0.10인 전략은 종료

이것이 퀀트 트레이딩과 ‘감으로 하는 트레이딩’의 차이다: 당신은 추측하는 게 아니라, 수학이 답을 줄 때까지 기다리는 것이다.

마무리: 실거래 전에 먼저 이 질문을 던져라

대부분의 개인 투자자가 손실을 보는 건 전략이 나쁘기 때문이 아니라, 전략이 실제로 효과적인지 검증하지 않기 때문이다.

Z-score 통계 검증은 구현하기 어렵지 않지만, ‘소표본 고승률 → 실거래 → 계좌 폭발’이라는 전형적인 경로를 피하게 해준다.

퀀트 트레이딩을 하고 있다면, 실거래 전에 자신에게 이 질문을 먼저 던져라:

“내 승률이 동전 던지기와 비교해서 통계적으로 유의미한 차이가 있는가?”

답이 ‘불확실하다’면—그건 ‘없다’는 의미다.

JudyAI Lab에서 우리는 모든 전략이 먼저 Z-score와 OFI의 이중 검증을 통과한 후에야 실거래를 맡기기로 한다.

자주 묻는 질문 FAQ

Z-score란 무엇인가요? 퀀트 트레이더가 반드시 이 검증을 해야 하는 이유는?

Z-score는 당신의 승률이 ‘동전 던지기 50%‘와 얼마나 차이 나는지를 측정합니다. 공식은 (승률-0.5)/√(0.25/n)입니다. Z>1.65이면 전략에 진짜 엣지가 있다고 95% 확신할 수 있습니다(p<0.05). 이 검증 없이 실거래에 들어가는 것은 운을 실력으로 착각하는 것이며, 이것이 개인 투자자 계좌 폭발의 전형적인 원인입니다.

왜 87.5% 승률이 오히려 통계적 착각인가요?

표본이 8건에 불과하기 때문입니다. 베이지안 조정 후 실제 승률은 60%에 불과하고, p값 0.24는 0.05보다 훨씬 커서 동전 던지기와 통계적 차이가 없다는 의미입니다. 소표본의 ‘고승률’은 거의 다 운입니다. 엣지를 초보적으로 검증하려면 최소 24건 이상(실제 승률 70% 기준)은 쌓아야 합니다.

전략을 몇 건 거래해야 통계적으로 유효한가요?

실제 승률에 따라 다릅니다. 55%는 약 384건, 60%는 96건, 65%는 44건, 70%는 24건이 필요합니다. 승률이 50%에 가까울수록 운과 분리하기 위해 더 많은 표본이 지수적으로 필요합니다. 실무적으로 최소 기준은 50건이며, 그 이하에서 엣지를 논하는 건 너무 이릅니다.

과적합 지수 OFI란 무엇이고 어떻게 해석하나요?

OFI는 샘플 내 Profit Factor를 샘플 외 Profit Factor로 나눈 것으로, 백테스팅 허수를 감지하는 지표입니다. OFI<1.5는 저위험, 1.5-2.0은 중간 위험, >2.0은 고위험, >3.0은 심각한 과적합입니다. 백테스팅 성과가 실거래보다 훨씬 좋을 때 OFI가 바로 잡아냅니다. 하드코딩된 ‘IS-OOS gap>15%’ 기준보다 더 정확합니다.

승률이 50% 미만인데도 장부상 수익이 플러스인 이유는?

리스크 관리가 효과적이라는 의미입니다. 수익 거래의 평균 이익이 손실 거래의 평균 손실보다 크다는 뜻입니다. 이는 좋은 신호이지만 33건 표본이 너무 적어서 결론을 내리기엔 부족합니다. 플러스 수익이 한두 건의 큰 수익에서 왔을 수 있습니다. Z-score로 엣지 존재를 검증한 뒤 건별 수익 분포가 안정적인지 확인해야 전략을 사용 가능하다고 판단할 수 있습니다.

참고 자료