Blog OpenAI menunjukkan bahwa model bahasa saat ini berhalusinasi karena pelatihan dan evaluasi menghargai tebak-tebakan alih-alih mengakui ketidakpastian. Ini menimbulkan pertanyaan alami: dapatkah kita mengurangi halusinasi tanpa melukai utilitas? 🤔 RL sesuai kebijakan dengan Binary Retrieval-Augmented Reward (RAR) kami dapat meningkatkan faktualitas (pengurangan halusinasi 40%) sambil mempertahankan utilitas model (tingkat kemenangan dan akurasi) LM yang sepenuhnya terlatih dan mampu seperti Qwen3-8B. [1/n]