Ny forskning på 445 AI-benchmarks • 48 % er uenige i hva de måler • 39 % bruker praktiske, ikke riktige data • 16 % tester statistisk signifikans Vi vet fortsatt ikke hvordan vi skal måle våre kraftigste verktøy IMO behandler evals som sport, ikke SAT konkurranse > tester klare regler - > menneske-forståelige resultater