Nie rozumiemy w pełni preferencji, które koduje ludzki feedback, więc trenowanie na nim może być ryzykowne. Proponujemy metodę automatycznego odkrywania tych preferencji! Identyfikujemy niebezpieczne, sprzeczne i subiektywne preferencje oraz poprawiamy bezpieczeństwo modelu, ewaluację i personalizację.