首頁 » AI 詞彙庫

RLHF（人類回饋強化學習）

RLHF（人類回饋強化學習）是什麼？讓人類評估 AI 的回答品質，再用這些評分來訓練 AI 變得更好的方法。ChatGPT 的成功很大程度歸功於 RLHF — 它讓模型從「會說話」進化到「說對的話」。成本高但效果顯著。 — Judy AI Lab AI 詞彙庫

core advanced

什麼是RLHF（人類回饋強化學習）？

讓人類評估 AI 的回答品質，再用這些評分來訓練 AI 變得更好的方法。ChatGPT 的成功很大程度歸功於 RLHF — 它讓模型從「會說話」進化到「說對的話」。成本高但效果顯著。