No entendemos completamente las preferencias que codifica la retroalimentación humana, por lo que entrenar con ella puede ser arriesgado. ¡Proponemos un método para descubrir automáticamente estas preferencias! Identificamos preferencias inseguras, contradictorias y subjetivas, y mejoramos la seguridad del modelo, la evaluación y la personalización.