No entendemos completamente las preferencias que codifica la retroalimentación humana, por lo que la capacitación puede ser arriesgada. ¡Proponemos un método para descubrir automáticamente estas preferencias! Identificamos preferencias inseguras, contradictorias y subjetivas, y mejoramos la seguridad, la evaluación y la personalización del modelo.