Ich denke, hier passiert etwas Wichtiges, das es wert ist, herausgefunden zu werden: 1) Die meisten Modelle überanpassen sich an die Bewertungen. Das gesagt, brauchen wir einige Bewertungen, um einem Modell zu sagen, ob es gute Bullshit-Detektoren sind, bevor wir losziehen und eine Menge Geld für Unsinn ausgeben. 2) Es muss ein Bewusstsein für Schmeichelei geben, und generell zustimmend zu sein, ist nicht immer die beste Sache. 3) Ich denke, die Verwendung einer Mischung aus LLMs und Menschen zur Beurteilung wäre wertvoll.