Testare la robustezza dei punteggi di @Havelock_AI conducendo un torneo, in cui a Claude vengono presentati solo i marcatori grammaticali e lessicali (senza contenuto) di due testi e gli viene chiesto di indovinare quale sia più orale. Vedremo se i testi con punteggi più alti hanno effettivamente ELO più alti.
Primo lotto di test prima della grande corsa
52