OpenAI'nin blogu () günümüz dil modellerinin halüsinasyon gördüğünü çünkü eğitim ve değerlendirmenin belirsizliği kabul etmek yerine tahmini ödüllendirdiğini belirtiyor. Bu doğal bir soruyu gündeme getiriyor: Halüsinasyonu faydaya zarar vermeden azaltabilir miyiz? 🤔 Politika içi RL, İkili Geri Getirme-Artırılmış Ödül (RAR) ile sağlanması, gerçekliği artırabilir (halüsinasyonda %40 azalma) ve tam eğitimli, yetenekli LM'lerin (Qwen3-8B) model faydasını (kazanma oranı ve doğruluğu) koruyabilir. [1/n]