Blogul OpenAI () subliniază că modelele lingvistice de astăzi halucinează deoarece antrenamentul și evaluarea răsplătesc ghicitul, în loc să admită incertitudinea. Aceasta ridică o întrebare firească: putem reduce halucinația fără a afecta utilitatea? 🤔 RL-ul pe politică cu Binary Retrieval-Augmented Reward (RAR) poate îmbunătăți factualitatea (reducerea cu 40% a halucinațiilor) păstrând în același timp utilitatea modelului (rata de câștig și acuratețea) a LM-urilor complet antrenate și capabile, precum Qwen3-8B. [1/n]