人間のフィードバックがエンコードする好みを完全には理解していないため、それに関するトレーニングにはリスクが伴う可能性があります。 これらの好みを自動で発見する方法を提案します! 安全でない、矛盾する、主観的な好みを特定し、モデルの安全性、評価、パーソナライゼーションを改善します。