نحن لا نفهم تماما التفضيلات التي ترميزها التعليقات البشرية ، لذا فإن التدريب عليها قد يكون محفوفا بالمخاطر. نقترح طريقة لاكتشاف هذه التفضيلات تلقائيا! نحدد التفضيلات غير الآمنة والمتناقضة والذاتية، ونحسن سلامة النموذج وتقويته وتخصيصه.