Ми не до кінця розуміємо переваги, які кодує людський зворотний зв'язок, тому навчання на ньому може бути ризикованим. Ми пропонуємо метод автоматичного виявлення цих уподобань! Ми виявляємо небезпечні, суперечливі та суб'єктивні уподобання, а також покращуємо безпеку моделі, її ефективність та персоналізацію.