Wir verstehen nicht vollständig, welche Präferenzen das menschliche Feedback kodiert, daher kann das Training darauf riskant sein. Wir schlagen eine Methode vor, um diese Präferenzen automatisch zu entdecken! Wir identifizieren unsichere, widersprüchliche und subjektive Präferenzen und verbessern die Sicherheit, Bewertung und Personalisierung des Modells.