El blog de OpenAI () señala que los modelos de lenguaje de hoy en día alucinan porque el entrenamiento y la evaluación recompensan adivinar en lugar de admitir incertidumbre. Esto plantea una pregunta natural: ¿podemos reducir la alucinación sin perjudicar la utilidad?🤔 El RL en política con nuestra Recompensa Aumentada por Recuperación Binaria (RAR) puede mejorar la factualidad (reducción del 40% en la alucinación) mientras preserva la utilidad del modelo (tasa de victorias y precisión) de LMs completamente entrenados y capaces como Qwen3-8B. [1/n]