📰 핵심 요약

머신러닝에서 핵심적인 문제 중 하나는 주어진 데이터 포인트들로부터 그 배후의 분포를 복원하는 것입니다. 구체적으로는 두 가지 값을 추정해야 합니다 — 밀도(density)와 스코어(score). 밀도는 히스토그램의 부드러운 버전으로 피크가 데이터 밀집 지점에 대응하며, 스코어는 로그 밀도의 그래디언트로 확률이 가장 빠르게 오르는 방향을 가리킵니다. 확산 생성 모델(Stable Diffusion, DALL-E 등)은 스코어 방향을 반복적으로 따라가며 무작위 노이즈를 단계적으로 실제 이미지로 변환합니다. 베이지안 샘플링과 플라즈마 입자 시뮬레이션도 동일한 스코어 추정에 의존합니다.

전통적인 커널 밀도 추정(KDE)은 훈련이 필요 없고 어떤 분포에도 적용 가능하지만, 차원이 높아질수록 정확도가 급격히 떨어집니다. 신경망 스코어 매칭 모델은 고차원에서도 정확도를 유지하지만, 새로운 분포가 등장할 때마다 처음부터 재훈련해야 하므로 범용성이 제한됩니다.

AllenAI가 제안한 DiScoFormer(밀도 및 스코어 Transformer)는 이 두 가지 문제를 동시에 해결합니다. 모델은 데이터 포인트 배치를 입력으로 받아, 쌓인 Transformer 레이어와 크로스 어텐션 메커니즘을 통해 단일 순전파로 임의의 쿼리 위치(데이터가 있는 위치에 한정되지 않음)에서 밀도와 스코어를 동시에 출력하며, 재훈련이 필요하지 않습니다. 핵심 설계는 공유 백본으로 두 출력 헤드를 연결하고, ‘스코어는 반드시 로그 밀도의 그래디언트와 같아야 한다’는 수학적 제약을 레이블 없는 일관성 손실로 활용하는 것입니다. 추론 시에는 컨텍스트를 고정한 뒤 해당 일관성 손실에 대해 소수의 그래디언트 스텝을 수행함으로써, 실제 레이블 없이도 분포 외 입력에 즉각 적응할 수 있습니다.


💬 JudyAI Lab 관점

분포 추정에는 오랜 딜레마가 있습니다. 범용 방법(KDE)은 고차원에서 부정확하고, 정확한 방법(신경망)은 분포가 바뀔 때마다 재훈련이 필요합니다. AllenAI의 DiScoFormer는 단일 Transformer로 밀도와 스코어를 동시에 출력하며 이 트레이드오프를 깨뜨렸습니다.

이 설계에서 가장 주목할 점은 아키텍처만이 아니라, 수학적 관계를 훈련 신호로 전환하는 사고방식입니다. ‘스코어는 반드시 로그 밀도의 그래디언트와 같아야 한다’는 제약이 DiScoFormer에서는 레이블 없는 일관성 손실이 되어, 공유 백본이 두 출력 헤드를 동시에 학습할 수 있게 합니다. 추론 시에는 실제 레이블 없이도 소수의 그래디언트 스텝만으로 분포 외 입력에 즉각 적응할 수 있습니다. 다중 출력 시스템을 설계할 때 우리가 자주 간과하는 것이 있습니다. 출력 간에는 종종 활용 가능한 수학적 관계가 존재하며, 그 관계 자체가 추가 주석 비용 없이 얻을 수 있는 무료 감독 신호입니다.

다음에 다중 출력 모델을 설계할 때는, 각 출력 간에 알려진 수학적 관계가 있는지 먼저 검토해 보세요 — 그 관계가 최고의 레이블 없는 훈련 신호가 될 수 있습니다.


📅 원문 정보


🔗 더 읽기