什麼是RLHF(人類回饋強化學習)?

讓人類評估 AI 的回答品質,再用這些評分來訓練 AI 變得更好的方法。ChatGPT 的成功很大程度歸功於 RLHF — 它讓模型從「會說話」進化到「說對的話」。成本高但效果顯著。