De robuustheid van de scores van @Havelock_AI testen door een toernooi te organiseren, waarbij Claude alleen de grammaticale en lexicale markers (geen inhoud) van twee teksten krijgt gepresenteerd en gevraagd wordt te raden welke meer mondeling is. We zullen zien of teksten met hogere scores daadwerkelijk hogere ELO's hebben.
Eerste testbatch voor de grote run
92