Vi forstår ikke helt preferansene menneskelig tilbakemelding koder, så det kan være risikabelt å trene på det. Vi foreslår en metode for automatisk å oppdage disse preferansene! Vi identifiserer utrygge, motstridende og subjektive preferanser, og forbedrer modellsikkerhet, evaluering og personalisering.