Блог OpenAI () зазначає, що сучасні мовні моделі галюцинують, бо навчання та оцінювання винагороджують здогадування, а не визнання невизначеності. Це породжує природне питання: чи можемо ми зменшити галюцинації, не шкодячи корисності? 🤔 Політика RL з нашим Binary Retrieval-Augmented Reward (RAR) може покращити фактичність (на 40% зниження галюцинацій), зберігаючи корисність моделі (відсоток перемог і точність) повністю навчених, компетентних LM, таких як Qwen3-8B. [1/n]