Tl; Dr: AI-modeller trenes til å gjøre det bra på benchmarks, ikke nødvendigvis på virkelige oppgaver. AI har blitt nesten like god som krypto til å lyve med tall.