OpenAI:n blogi () huomauttaa, että nykyiset kielimallit näkevät hallusinaatioita, koska koulutus ja arviointi palkitsevat arvaamisen sen sijaan, että myöntäisivät epävarmuuden. Tämä herättää luonnollisen kysymyksen: voimmeko vähentää hallusinaatioita vahingoittamatta niiden hyötyä? 🤔 Politiikkaan perustuva RL Binary Retrieval-Augmented Rewardin (RAR) avulla voi parantaa faktuaalisuutta (40 % vähennys hallusinaatioissa) samalla kun säilyttää mallin hyödyllisyyden (voittoprosentti ja tarkkuus) täysin koulutetuissa, kykenevissä LM:issä, kuten Qwen3-8B:ssä. [1/n]