El blog de OpenAI () señala que los modelos de lenguaje actuales alucinan porque el entrenamiento y la evaluación recompensan a adivinar en lugar de admitir incertidumbre. Esto plantea una pregunta natural: ¿podemos reducir las alucinaciones sin dañar la utilidad? 🤔 El RL en política con nuestra Recompensa Binaria Aumentada por Recuperación (RAR) puede mejorar la factualidad (reducción del 40% en las alucinaciones) mientras preserva la utilidad del modelo (tasa de victoria y precisión) de LMs totalmente entrenados y capaces como Qwen3-8B. [1/n]