Ihmiset tulkitsevat tämän kaavion nopeasti väärin hypetykseksi Tässä on selkeä selitys siitä, mitä tapahtuu: METR rakentaa ohjelmistotehtävien vertailutaulukon (monimutkaisten järjestelmien virheenkorjaus, koneoppimismallien kouluttaminen tai tietoturva-aukkojen löytäminen) He mittaavat, kuinka kauan kukin tehtävä kestää taitavalta ihmisasiantuntijalta, ja testaavat sitten tekoälyagentteja samoissa tehtävissä. "Aikahorisontti" on yhteenvetotilasto: tehtävän pituus, jolla tietty tekoäly onnistuu 50 % ajasta. Malli, jonka aikahorisontti on 2 tuntia, suorittaa puolet niistä tehtävistä, jotka ihmisasiantuntijalta veisi 2 tuntia. METR raportoi juuri, että Claude Opus 4.6:lla on 50 % aikahorisontti ~14,5 tuntia, mikä olisi tietysti uskomattoman vaikuttavaa... mutta METR kehottaa meitä olemaan varovaisia! On tilastollinen ongelma. Vaikeita tehtäviä ei yksinkertaisesti ole tarpeeksi jäljellä ankkuroimaan käyrän yläpäätä, ja frontier-mallit menestyvät nyt lähes kaikessa tehtäväsarjassa. Joten pienet satunnaiset vaihtelut tuloksissa heittävät arviota dramaattisesti: 95 %:n luottamusväli ulottuu 6 tunnista 98 tuntiin, mikä on selvästi epäluotettava vaihteluväli kenellekään tehdä johtopäätöksiä. METR itse kehittävät uusia menetelmiä mittausmenetelmien parissa tällä tasolla, joten odotukset lasketaan hieman :)