Blog OpenAI () wskazuje, że dzisiejsze modele językowe halucynują, ponieważ trening i ocena nagradzają zgadywanie zamiast przyznawania się do niepewności. To rodzi naturalne pytanie: czy możemy zredukować halucynacje bez uszczerbku dla użyteczności?🤔 RL w trybie on-policy z naszym Binary Retrieval-Augmented Reward (RAR) może poprawić faktyczność (redukcja halucynacji o 40%) przy jednoczesnym zachowaniu użyteczności modelu (wskaźnik wygranych i dokładność) w przypadku w pełni wytrenowanych, zdolnych LM, takich jak Qwen3-8B. [1/n]