Le blog d'OpenAI () souligne que les modèles de langage d'aujourd'hui hallucinent parce que l'entraînement et l'évaluation récompensent les suppositions au lieu d'admettre l'incertitude. Cela soulève une question naturelle : pouvons-nous réduire l'hallucination sans nuire à l'utilité ?🤔 Le RL en politique avec notre récompense augmentée par récupération binaire (RAR) peut améliorer la factualité (réduction de 40 % de l'hallucination) tout en préservant l'utilité du modèle (taux de victoire et précision) des LMs entièrement entraînés et capables comme Qwen3-8B. [1/n]