O blog da OpenAI () aponta que os modelos de linguagem atuais têm alucinações porque treinamento e avaliação recompensam o palpite em vez de admitir incerteza. Isso levanta uma questão natural: podemos reduzir as alucinações sem prejudicar a utilidade? 🤔 O RL em apólice com nosso Binary Retrieval-Augmented Reward (RAR) pode melhorar a factualidade (redução de 40% nas alucinações) enquanto preserva a utilidade do modelo (taxa de vitória e precisão) de modelos de gerenciamento totalmente treinados e capazes como Qwen3-8B. [1/n]