Der Blog von OpenAI () weist darauf hin, dass die heutigen Sprachmodelle halluzinieren, weil das Training und die Bewertung das Raten belohnen, anstatt Unsicherheit zuzugeben. Dies wirft eine natürliche Frage auf: Können wir Halluzinationen reduzieren, ohne die Nützlichkeit zu beeinträchtigen?🤔 On-Policy-RL mit unserer Binary Retrieval-Augmented Reward (RAR) kann die Faktizität verbessern (40% Reduktion der Halluzinationen), während die Nützlichkeit des Modells (Gewinnrate und Genauigkeit) von vollständig trainierten, fähigen LMs wie Qwen3-8B erhalten bleibt. [1/n]