我們並不完全理解人類反饋所編碼的偏好,因此在此基礎上進行訓練可能存在風險。 我們提出了一種自動發現這些偏好的方法! 我們識別不安全、矛盾和主觀的偏好,並改善模型的安全性、評估和個性化。