Nový výzkum benchmarků 445 AI • 48 % nesouhlasí s tím, co měří • 39 % používá pohodlná, nikoli správná data • 16 % statistická významnost testu Stále nevíme, jak měřit naše nejmocnější nástroje IMO zachází s hodnocením jako se sportem, ne se SAT Soutěž > testy jasná pravidla - > výsledky srozumitelné člověku