RLHF (인간 피드백 강화학습)란?

인간이 AI 응답의 품질을 평가하고, 그 평가를 사용하여 AI를 개선하는 훈련 방법입니다.