Plně nerozumíme preferencím, které kóduje lidská zpětná vazba, takže trénování na ní může být riskantní. Navrhujeme způsob, jak tyto předvolby automaticky objevit! Identifikujeme nebezpečné, protichůdné a subjektivní preference a zlepšujeme bezpečnost, vyhodnocení a personalizaci modelu.