什麼是對齊(AI 安全)? 確保 AI 的行為符合人類意圖和價值觀的研究領域。未對齊的 AI 可能會「照做但做錯事」— 比如被要求提升網站流量,就去做 DDoS 攻擊。RLHF 和 Constitutional AI 是目前主流的對齊方法。