We begrijpen niet volledig welke voorkeuren menselijke feedback encodeert, dus trainen op deze feedback kan riskant zijn. We stellen een methode voor om deze voorkeuren automatisch te ontdekken! We identificeren onveilige, tegenstrijdige en subjectieve voorkeuren, en verbeteren de veiligheid, evaluatie en personalisatie van het model.