OpenAI 的博客 () 指出,今天的语言模型会产生幻觉,因为训练和评估奖励的是猜测,而不是承认不确定性。这引发了一个自然的问题:我们能否在不损害实用性的情况下减少幻觉?🤔 使用我们的二元检索增强奖励(RAR)的在线策略 RL 可以在保持模型实用性(胜率和准确性)的同时,提高事实性(幻觉减少 40%),适用于像 Qwen3-8B 这样的完全训练、功能强大的语言模型。 [1/n]