O blog da OpenAI () aponta que os modelos de linguagem de hoje alucinam porque o treinamento e a avaliação recompensam adivinhações em vez de admitir incertezas. Isso levanta uma questão natural: podemos reduzir a alucinação sem prejudicar a utilidade?🤔 O RL em política com nossa Recompensa Aumentada por Recuperação Binária (RAR) pode melhorar a factualidade (redução de 40% na alucinação) enquanto preserva a utilidade do modelo (taxa de vitória e precisão) de LMs totalmente treinados e capazes como o Qwen3-8B. [1/n]