Kami tidak sepenuhnya memahami preferensi yang dikodekan umpan balik manusia, jadi pelatihan tentangnya bisa berisiko. Kami mengusulkan metode untuk menemukan preferensi ini secara otomatis! Kami mengidentifikasi preferensi yang tidak aman, kontradiktif, dan subjektif, serta meningkatkan keamanan, evaluasi, dan personalisasi model.