Nous ne comprenons pas entièrement les préférences que le retour humain encode, donc s'entraîner sur cela peut être risqué. Nous proposons une méthode pour découvrir automatiquement ces préférences ! Nous identifions les préférences dangereuses, contradictoires et subjectives, et améliorons la sécurité du modèle, l'évaluation et la personnalisation.