OpenAIs blogg () påpeker at dagens språkmodeller hallusinerer fordi trening og evaluering belønner gjetting i stedet for å innrømme usikkerhet. Dette reiser et naturlig spørsmål: kan vi redusere hallusinasjoner uten å skade nytten? 🤔 On-policy RL med vår Binary Retrieval-Augmented Reward (RAR) kan forbedre faktaligheten (40 % reduksjon i hallusinasjoner) samtidig som modellnytten (seiersrate og nøyaktighet) til fullt trente, kapable LM-er som Qwen3-8B bevares. [1/n]