OpenAIのブログ()は、今日の言語モデルが幻覚を起こしているのは、訓練や評価が不確実性を認める代わりに推測を奨励しているからだと指摘しています。ここで自然な疑問が浮かびます。幻覚を減らすと効用を損なわないでしょうか? 🤔 ポリシー上の強化学習(On Policy RL)は、バイナリ検索増強報酬(RAR)を組み合わせることで、Qwen3-8Bのような完全に訓練された有能なLMのモデルの有用性(勝率と正確さ)を維持しつつ、事実性(幻覚の40%減少)を向上させることができます。 [1/n]