Testing av robustheten til @Havelock_AI poeng ved å gjennomføre en turnering, hvor Claude bare presenteres for de grammatiske og leksikalske markørene (uten innhold) fra to tekster og blir bedt om å gjette hvilken som er mest muntlig. Vi får se om tekster med høyere poengsum faktisk har høyere ELO-er.
Første testbatch før det store oppdraget
60