De blog van OpenAI () wijst erop dat de taalmodellen van vandaag hallucineren omdat training en evaluatie gokken belonen in plaats van onzekerheid toe te geven. Dit roept een natuurlijke vraag op: kunnen we hallucinatie verminderen zonder de bruikbaarheid te schaden?🤔 On-policy RL met onze Binary Retrieval-Augmented Reward (RAR) kan de feitelijkheid verbeteren (40% vermindering van hallucinatie) terwijl de bruikbaarheid van het model (winstpercentage en nauwkeurigheid) van volledig getrainde, capabele LMs zoals Qwen3-8B behouden blijft. [1/n]