Vi har for mange benchmarks på modellevne, og for få på agentisk arbeid. Det som i økende grad betyr noe økonomisk er ikke AI-ers evne til å få et spørsmål rett gjennom et API-kall, men snarere dens evne til å kombinere verktøy og evne til å løse et problem. Det er undermålt.
En modell som er svakere på evne, men som kan finne ut når den er feil og er flink til å bruke andre tilnærminger for å overvinne sin svakhet, er av mye mer praktisk nytte enn en modell som scorer noen få poeng høyere på Humanity's Last Exam. Men vår benchmarking ser ikke dette.
Vi trenger også bedre benchmarking som peker på HVORFOR agentiske evner bryter sammen. For eksempel er syn et åpenbart svakt punkt for modeller som forklarer mange agentfeil når de samhandler med den virkelige verden. Men det er også "doom loops" der AI fortsetter å prøve det samme.
Det faktum at det å kjøre en fiktiv salgsautomat er en viktig målestokk som brukes i kunngjøringen av store nye AI-modeller, viser deg hvor vi er. Det er ikke en dårlig test (den er superinteressant egentlig), men det er ikke klart hva den måler, og vi trenger mye mer mangfold av oppgaver også.
30,35K