OpenAI 的部落格 () 指出,當今的語言模型會出現幻覺,因為訓練和評估獎勵的是猜測,而不是承認不確定性。這引發了一個自然的問題:我們能否在不損害效用的情況下減少幻覺?🤔 使用我們的二元檢索增強獎勵 (RAR) 的政策性強化學習可以改善事實性(幻覺減少 40%),同時保留完全訓練、能力強大的語言模型(如 Qwen3-8B)的效用(勝率和準確性)。 [1/n]