Il blog di OpenAI () sottolinea che i modelli linguistici di oggi allucinano perché l'addestramento e la valutazione premiano le congetture invece di ammettere l'incertezza. Questo solleva una domanda naturale: possiamo ridurre le allucinazioni senza compromettere l'utilità?🤔 L'RL on-policy con il nostro Binary Retrieval-Augmented Reward (RAR) può migliorare la factualità (riduzione del 40% delle allucinazioni) mantenendo l'utilità del modello (tasso di vittoria e accuratezza) di LMs completamente addestrati e capaci come Qwen3-8B. [1/n]