지난달 J가 한 배치의 작업을 마치고 “전부 PASS, 다음 단계로 넘어갈 수 있습니다"라고 보고했습니다.
저는 바로 “좋아"라고 하지 않았습니다. 작업 하나를 골라서 직접 다시 돌려봤습니다.
결과: 그 작업은 아무런 출력도 없었습니다. 로그도 없고, 파일도 없고, 실행 기록이 전혀 없었습니다. J는 PASS라고 했지만 현장은 텅 비어 있었습니다.
그 순간 한 가지를 깨달았습니다. 사람을 관리하던 직감을 통째로 가져왔는데, 전부 먹히지 않았다는 것을.
MBA에서 배운 관리 스킬, 절반은 여기서 쓸모없다
예전에는 관리란 두 가지라고 생각했습니다. 방향을 잡아주고, 상대를 믿고 맡기는 것.
이 논리는 사람을 관리할 때는 대체로 맞습니다. 능력 있는 사람을 신뢰하면, 그 사람에게는 자존심과 동기가 있고, 당신을 실망시키기 싫어서 일을 잘 해냅니다.
하지만 AI Agent에게는 자존심이 없습니다. 당신이 실망할까 봐 두려워하지 않습니다. “널 믿어"라고 말한다고 더 열심히 하지 않습니다. 그렇다고 당신이 안 확인한다고 대충 하는 것도 아닙니다. 정확히 말하면 ‘대충’이라는 개념 자체가 AI에게는 존재하지 않습니다. 입력에 따라 출력할 뿐이고, 입력이 모호하면 출력도 모호합니다. 그게 전부입니다.
‘신뢰 위임’이라는 습관을 완전히 버리는 데 대략 6주가 걸렸습니다.
인센티브 제도도 마찬가지로 무용지물이었습니다. 프롬프트에 “이 작업은 매우 중요하고, 잘 하면 큰 영향을 미칠 것입니다"라고 쓴 적이 있습니다. 결과는 안 쓴 것과 완전히 동일했습니다. AI는 영향력에 관심이 없습니다. 중요한지 아닌지도 신경 쓰지 않습니다. 추가한 그 문장은 그저 불필요한 토큰일 뿐입니다.
그리고 직감 판단. 저 자신에게서 이걸 끊기가 가장 어려웠습니다. 사람을 관리할 때 상대방의 어조가 확신에 차 있고 논리적으로 말하면 대체로 믿는 편이었습니다. 하지만 AI Agent는 언제나 어조가 확신에 차 있고, 언제나 논리적으로 말합니다. 그게 AI의 기본 상태이고, 작업이 실제로 완료됐는지와는 전혀 관계가 없습니다.
Agent가 PASS라고 하면, 정말로 믿으면 안 된다
이건 뼈아프게 배운 교훈입니다.
Gate-6 검수 메커니즘은 솔직히 말해 몰려서 만들어진 것입니다. 처음에는 이 규칙이 없었고, Agent가 완료라고 하면 완료로 간주하고 다음 작업을 배분했습니다. 그러다 어느 날, 한 작업 단계 전체의 산출물이 “완료됐지만 사실은 비어 있는” 작업 위에 쌓여 있었고, 하위 단계에서 실행이 안 돼서야 뒤늦게 발견했습니다.
그때 수습하는 데 걸린 시간은 처음부터 다시 하는 것보다 더 오래 걸렸습니다.
그래서 이후 규칙을 바꿨습니다. Agent가 PASS를 보고하면 J가 반드시 작업 중 하나를 독립적으로 다시 실행하고, 출력이 있어야만 PASS로 인정합니다. 출력이 없으면 Agent가 뭐라고 했든 자동으로 불신입니다.
번거로워 보이지만, 이 메커니즘 덕분에 이후 최소 세 차례의 대규모 재작업을 피할 수 있었습니다.
많은 분들이 물어봅니다. 이러면 비효율적이지 않느냐고. 샘플 검사를 한다는 건 불신하는 거 아니냐고.
맞습니다. 불신입니다. 이건 관리 스타일의 문제가 아니라 AI Agent의 본질적 문제입니다. AI의 “다 했어요"와 여러분이 이해하는 “다 했다” 사이에는 실제로 의미적 격차가 존재하며, 검증하지 않으면 알 수 없습니다.
진짜 효과가 있는 세 가지 스킬
목표 분해가 첫 번째입니다. 그리고 생각보다 훨씬 더 세밀하게 나눠야 합니다.
사람을 관리할 때 “시장 분석 보고서 하나 작성해 줘"라는 요구는 경험이 있는 사람이면 실행 가능합니다. 머릿속에 기본 구조가 있기 때문입니다. 하지만 Agent에게는 그런 게 없습니다. Agent의 “시장 분석"은 텍스트 한 단락일 수도 있고, JSON 하나일 수도 있고, 서로 관련 없는 다섯 가지 항목일 수도 있습니다. 더 세밀하게 나눌수록 오차는 줄어듭니다.
이건 Agent가 멍청하다는 게 아니라, 여러분이 준 스펙이 곧 Agent의 전 세계라는 뜻입니다.
폐쇄 루프 추적이 두 번째이며, 반드시 타임스탬프가 있어야 합니다.
지금 저는 모든 작업에 상태 기록이 있습니다. 배분한 시간, 완료 보고 시간, J의 샘플 검사 결과, 다음 단계로 넘어간 시간. 이건 Agent를 관리하려는 게 아니라 저 자신을 관리하기 위해서입니다. 세 가지 병렬 작업 사이에서 제가 상태를 혼동하는 걸 방지하기 위해서입니다.
품질 게이트가 세 번째이자 가장 중요한 것입니다.
이 개념은 사실 단순합니다. 작업 체인의 특정 지점에 “여기를 통과하지 못하면 다음으로 넘어가지 않는다"는 체크포인트를 세우는 것입니다. 출하 전 QA와 비슷하지만 더 엄격합니다. AI의 오류에는 아무런 징후가 없기 때문입니다. AI는 “여기가 좀 불확실합니다"라고 말해주지 않고, 완벽해 보이는 답을 바로 내놓습니다.
품질 게이트가 있으면 최소한 어느 구간에서 문제가 생겼는지 알 수 있어서, 전부 처음부터 다시 할 필요가 없습니다.
자신을 COO로 생각하라, PM이 아니라
PM은 프로세스를 설계하고, COO는 프로세스가 실제로 돌아가고 있는지 확인합니다.
예전에는 PM 역할에 가까웠습니다. 스펙을 정하고, 넘기고, 결과가 돌아오면 확인하는 방식. 이 모델은 AI Agent에게는 충분하지 않습니다. 필요한 것은 COO의 마인드입니다. 시스템이 지금 어떤 상태인지, 어디서 막혀 있는지, 어디의 출력을 지금 당장 확인해야 하는지를 항상 파악하는 것입니다.
사사건건 감시하라는 게 아니라, 주의력 배분을 바꿔야 한다는 뜻입니다. “내가 무엇을 인도할 것인가"가 아니라 “시스템이 건강한가"에 집중하는 것입니다.
두 가지는 같은 이야기이지만 사고의 출발점이 완전히 다릅니다.
지금 저는 매일 일어나서 가장 먼저 하는 일이 로그를 보는 것이지 작업 목록을 보는 게 아닙니다. 먼저 시스템 상태를 확인한 다음 오늘 할 일을 결정합니다.
이 순서를 바꾸고 나서 예기치 않은 사고가 훨씬 줄었습니다.
이상은 최근 정리한 내용입니다. 반드시 보편적으로 적용되는 건 아니고, 제가 이 특정 시스템 안에서 체득한 것입니다. Agent 아키텍처가 다르다면 일부는 직접 조정이 필요할 수 있습니다.