Die Robustheit der @Havelock_AI-Wertungen wird getestet, indem ein Turnier durchgeführt wird, bei dem Claude lediglich die grammatikalischen und lexikalischen Marker (keine Inhalte) von zwei Texten präsentiert bekommt und gefragt wird, welcher mündlicher ist. Wir werden sehen, ob höher bewertete Texte tatsächlich höhere ELOs haben.
Erste Testcharge vor dem großen Lauf
81