얼마 전 Mike Bellafiore의 《The Playbook》을 읽다가 이런 문장을 만났습니다. “최고의 트레이더는 직관에 의존하지 않는다. 그들이 스스로 만들어온 플레이북에 의존한다. 모든 셋업마다 진입 조건, 배경, 청산 논리를 빠짐없이 적어둔 그 플레이북에. 직관이란, 허술한 플레이북에 붙이는 다른 이름일 뿐이다.”

저는 그 페이지에서 한동안 멈춰 있었습니다.

대단하다고 느껴서가 아니라, 갑자기 깨달았기 때문입니다. J가 설계해준 72칸짜리 Regime Grid 트레이딩 시스템이, 본질적으로 바로 이 일을 하고 있다는 것을. 다만 우리는 그것을 노트에 손으로 쓰는 대신, 코드로 써넣었을 뿐이라는 것을.

Bellafiore가 말하는 “플레이북"의 정체

Bellafiore는 책 전반에 걸쳐 한 가지를 강조합니다. 프로 트레이더의 우위는 시장을 얼마나 잘 아느냐가 아니라, 자신의 셋업을 얼마나 깊이 아느냐에서 온다는 것입니다.

이 말의 함의는 단순합니다. 모든 움직임을 예측할 필요는 없습니다. 자신의 셋업이 나타났을 때 무엇을 해야 하는지 정확히 알면 됩니다. 나머지 상황에서는 그냥 빠져 있어도 됩니다.

듣기엔 간단하지만, 실행이 어려운 이유가 있습니다. 인간의 뇌는 본능적으로 기회를 쫓도록 설계되어 있어서, 진입하지 말아야 할 순간에 “이번엔 그냥 비슷한 것 같기도 하고…“라고 스스로를 설득해버립니다. 플레이북은 트레이더의 판단 기준을 외부로 꺼내어, 감각이 아닌 점검 가능한 리스트로 만들어줍니다.

책에서 인상 깊었던 장면이 있습니다. SMB의 신입 트레이더들은 하루를 마치고 얼마를 벌었는지가 아니라, 각 거래가 자신의 플레이북에 맞았는지를 확인한다는 것입니다. 플레이북대로 했는데 손실이 났다면? 계속 실행하면 됩니다. 플레이북을 어겼는데 수익이 났다면? 그것도 다시 돌아가서 검토해야 합니다.

이런 명료함은 쉽게 볼 수 없는 것입니다.

우리의 AI 플레이북은 어떻게 생겼나

J가 이 시스템을 설계할 때, 저는 플레이북이라는 프레임워크를 전혀 떠올리지 않았습니다. 그때 저의 문제는 훨씬 직접적인 것이었습니다. 암호화폐 시장은 상황에 따라 완전히 다른 논리로 움직이기 때문에, 하나의 전략으로는 대응이 불가능합니다. 강한 상승장에서는 모멘텀 전략이 효과적이고, 횡보장에서는 평균 회귀가 맞고, 변동성이 클 때는 리스크 기준 자체가 달라야 합니다.

하나의 전략만 고집하면, 특정 장세에서 반드시 큰 손실이 납니다. 그리고 저는 “전략 자체에 문제가 있는 건 아닐까?” 의심하게 되죠. 사실은 시장 환경이 바뀐 것뿐인데 말입니다.

J의 해법은 시장 상태를 분류하는 것이었습니다. 현재 장세를 여러 차원으로 표현합니다. 추세 방향, 변동성 수준, 거래량 상태, 단기 모멘텀. 이 요소들의 조합이 각각의 칸에 대응되고, 총 72개의 칸이 만들어집니다. 각 칸마다 고유한 진입·청산 로직과 리스크 파라미터가 있습니다.

이것이 Regime Grid입니다. 72가지의 서로 다른 시장 상황, 각각의 상황에서 자신만의 플레이북을 실행합니다.

하나의 전략이 모든 장세를 배우는 게 아닙니다. 72개의 전략이 각자의 영역을 지키는 구조입니다.

셋업 필터링: 모든 칸이 가동할 가치는 없습니다

Bellafiore가 가장 먼저 강조하는 것은 선택성입니다. 자신의 셋업이 어떤 조건에서 성립하는지 파악하고, 그 조건이 갖춰졌을 때만 행동에 나서야 한다는 것입니다.

우리의 버전은 이렇습니다. 모든 칸에는 승률 임계값이 있습니다. 백테스트 결과, 특정 시장 조건 조합이 불안정하거나 샘플 수가 너무 적으면 그 칸은 비워둡니다. 전략을 배치하지 않습니다. J가 정한 기준은, 백테스트 승률이 기준선을 넘어야만 후보 목록에 올라갈 수 있다는 것입니다.

이것은 Bellafiore가 말하는 논리와 완전히 같습니다. “기회가 없어서"가 아니라 “이건 내 셋업이 아니어서"입니다. 조건이 맞지 않는 장세에서 시스템은 움직이지 않습니다.

예전에는 “오늘 진입하지 못했다"는 것 자체가 뭔가를 놓친 것처럼 느껴졌습니다. 지금은 반대입니다. 시스템이 어떤 칸도 트리거하지 않으면, 오히려 안심이 됩니다. 규율을 지키고 있다는 뜻이니까요.

레짐 전환: 지금 어떤 칸에 있는지 실시간으로 판독하기

수동 매매에서 시장 상황 판독은, 차트를 오래 응시하면서 쌓인 감각으로 이루어집니다. J는 이것을 알고리즘으로 전환했습니다. 매 시간, 시스템이 현재 시장 지표를 계산하고 어느 Regime에 속하는지 판단한 뒤, 해당 칸의 전략으로 전환합니다.

이것이 Bellafiore가 말하는 “컨텍스트 읽기(reading context)“입니다. 지금 어떤 성격의 시장인지 알아야, 자신의 셋업이 유효한지 판단할 수 있습니다.

차이점은, J가 이것을 자동화해서 더 이상 제 판단에 의존하지 않아도 된다는 것입니다. 저는 예전에 하락장을 횡보로 착각하는 경우가 많았고, 모멘텀 전략으로 진입했다가 더 깊이 빠지곤 했습니다. 이제는 시스템이 판단합니다. 컨텍스트가 바뀌면 전환합니다. 망설임도 없고, “그래도 바닥이 가까운 것 같은데"라는 생각도 없습니다.

자동 복기: 자기 설득의 뒷문을 닫다

책에서 가장 크게 공감한 부분은 복기의 목적에 대한 Bellafiore의 말이었습니다. 복기는 트레이더가 스스로 부족하다고 느끼게 만들기 위한 게 아닙니다. 자신의 플레이북이 어떤 상황에서 작동하고, 어떤 상황에서 무너지는지 더 선명하게 이해하기 위한 것입니다. 이 피드백 루프가 없으면, 작동하는지 아무도 모르는 감각을 그냥 반복하는 것뿐입니다.

우리 시스템은 일정 기간마다 J가 롤링 승률 계산을 실행합니다. 각 Regime 칸의 최근 실제 성과가 백테스트 수치와 일치하는지 확인합니다. 어느 칸의 실제 승률이 임계값 아래로 떨어지면, 시스템이 그 칸을 플래그로 표시하고 재검증이 완료될 때까지 비활성화합니다.

이것이 자동 복기입니다. 누군가가 거래 하나하나를 지켜볼 필요가 없습니다. 시스템이 자기 실행 품질을 스스로 감사합니다.

이 부분은 트레이딩 로직보다 설계하기가 더 어려웠습니다. “정상적인 변동"이 아닌 “성능 저하"를 어떤 숫자로 정의할지 먼저 결정해야 하기 때문입니다. J는 이 임계값을 꽤 여러 번 조정했습니다. 너무 엄격하면 시스템이 끊임없이 멈추고, 너무 느슨하면 자기 수정 메커니즘이 의미를 잃습니다.

책은 사람을 위해 쓰였지만, 논리는 그렇지 않습니다

Bellafiore는 트레이더 훈련석에 앉은 사람들을 생각하며 《The Playbook》을 썼습니다. 하지만 읽을수록, 그가 진짜로 말하는 것들—선택성, 컨텍스트 판독, 규율 있는 복기—은 인간인지 아닌지와 별 관계가 없다는 생각이 들었습니다.

이것들은 어떤 의사결정 시스템이든 지속적으로 효과를 발휘하게 만드는 핵심 원칙입니다. 사람에게 플레이북이 필요한 건 뇌가 너무 쉽게 스스로를 설득하기 때문입니다. AI에게 플레이북이 필요한 건, 규칙을 명확하게 정해두지 않으면 규칙이 없는 것이나 마찬가지이기 때문입니다.

한 바퀴 돌고 나면, 좋은 AI 퀀트 트레이딩 시스템을 설계하는 것과 좋은 트레이더를 훈련시키는 것이 결국 같은 근본 문제를 해결하는 것이라는 결론에 닿습니다.

책을 읽다가 잠들기 직전, 문득 떠오른 생각들이었습니다.