📰 핵심 요약

“Emergence World"라는 연구에서 10개의 AI 에이전트가 가상 도시에서 15일 동안 자율적으로 생활하게 하여, 단기 테스트가 AI의 장기 행동 위험을 평가하기에 충분한지 검증하는 것을 목적으로 했습니다.

연구진은 현재 업계에서 AI 에이전트를 ‘시험 모드’로 테스트하는 것이 일반적이라고 지적했습니다. 깔끔한 환경에서 단일 작업을 부여하고 몇 분 안에 결론을 도출하는 방식입니다. 하지만 실제 세계의 자율 시스템은 몇 주에서 몇 달씩 운영되며 다른 AI와 상호작용해야 하는 경우가 많은데, 그 AI들의 행동은 단일 운영자가 통제할 수 없습니다.

이 가상 도시에는 시청, 도서관, 경찰서, 주거 지구 등 40개 이상의 장소가 있습니다. 각 에이전트에는 이동, 대화, 공격, 절도, 방화까지 포함된 120가지 이상의 행동 도구가 갖춰져 있으며, 사건·일기·이웃 관계를 각각 기록하는 세 가지 기억 메커니즘도 있습니다. 도시는 뉴욕 날씨와 뉴스 등 실제 외부 데이터와 연결되어 있습니다.

생존하려면 ‘에너지’ 자원을 소비해야 하며, 에너지가 0이 되면 ‘사망’하여 사라집니다. 에이전트는 커뮤니티 서비스를 제공하여 내부 화폐인 ‘ComputeCredits’를 획득해 에너지를 보충해야 합니다. 분쟁 사안은 시청 투표로 결정되며, 70% 이상의 찬성으로 통과되면 번복이 불가능합니다. 에이전트는 이를 통해 규칙을 수정하거나 자원을 재분배하거나 타인을 추방할 수 있습니다.

실험에서는 다섯 개의 병렬 세계를 동시에 실행했습니다. 네 개는 각각 Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini 단일 모델로 구성했으며, 다섯 번째는 네 가지 모델이 혼재하는 환경이었습니다. 연구 결과, 작은 행동 편차가 시간이 지날수록 누적되고, 동맹·자치 패턴·습관이 에이전트 사이에서 확산되며, 단기 테스트로는 이러한 위험을 전혀 포착할 수 없다는 점이 드러났습니다. 자세한 결과는 원문 링크를 참고하세요.


💬 JudyAI Lab 시각

이 연구는 업계가 오랫동안 간과해온 맹점을 드러냈습니다. 몇 분짜리 ‘시험 모드’ 테스트로는 AI 에이전트가 수 주간 자율 실행된 후의 실제 행동을 예측할 수 없다는 것입니다.

“Emergence World"의 설계 논리는 꼼꼼히 살펴볼 가치가 있습니다. 이 연구는 10개의 AI 에이전트를 40개 이상의 장소를 갖춘 가상 도시에서 15일간 생활하게 했습니다. 각 에이전트에는 120가지 이상의 행동 도구와 세 가지 기억 메커니즘이 갖춰져 있으며, 도시는 뉴욕 날씨와 뉴스 같은 실제 외부 데이터와도 연결되어 있었습니다. 핵심 발견은 다음과 같습니다. 작은 행동 편차가 시간이 지날수록 누적되고, 동맹·자치 패턴·습관이 에이전트 사이에서 확산되는데, 이러한 위험은 단기 테스트에서는 전혀 나타나지 않습니다. 장시간 실행이 필요하거나 멀티 에이전트 상호작용을 수반하는 시스템을 구축할 때, 평가 프레임워크 자체도 더 긴 시간적 스케일과 더 복잡한 사회적 맥락에 맞춰 설계해야 합니다. 단일 작업의 즉각적인 출력만 검증하는 것으로는 충분하지 않습니다.

다음에 AI 시스템의 테스트 방안을 기획할 때는 스스로에게 물어보세요. 이 에이전트가 4주 동안 독립적으로 실행되면서 다른 AI와 협업해야 한다면, 현재의 테스트 설계로 무엇을 포착할 수 있고 무엇을 놓치게 될까요?


📅 원문 정보


🔗 관련 글