Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ihmiset tulkitsevat tämän kaavion nopeasti väärin hypetykseksi
Tässä on selkeä selitys siitä, mitä tapahtuu:
METR rakentaa ohjelmistotehtävien vertailutaulukon (monimutkaisten järjestelmien virheenkorjaus, koneoppimismallien kouluttaminen tai tietoturva-aukkojen löytäminen)
He mittaavat, kuinka kauan kukin tehtävä kestää taitavalta ihmisasiantuntijalta, ja testaavat sitten tekoälyagentteja samoissa tehtävissä.
"Aikahorisontti" on yhteenvetotilasto: tehtävän pituus, jolla tietty tekoäly onnistuu 50 % ajasta. Malli, jonka aikahorisontti on 2 tuntia, suorittaa puolet niistä tehtävistä, jotka ihmisasiantuntijalta veisi 2 tuntia.
METR raportoi juuri, että Claude Opus 4.6:lla on 50 % aikahorisontti ~14,5 tuntia, mikä olisi tietysti uskomattoman vaikuttavaa...
mutta METR kehottaa meitä olemaan varovaisia!
On tilastollinen ongelma. Vaikeita tehtäviä ei yksinkertaisesti ole tarpeeksi jäljellä ankkuroimaan käyrän yläpäätä, ja frontier-mallit menestyvät nyt lähes kaikessa tehtäväsarjassa.
Joten pienet satunnaiset vaihtelut tuloksissa heittävät arviota dramaattisesti:
95 %:n luottamusväli ulottuu 6 tunnista 98 tuntiin, mikä on selvästi epäluotettava vaihteluväli kenellekään tehdä johtopäätöksiä.
METR itse kehittävät uusia menetelmiä mittausmenetelmien parissa tällä tasolla, joten odotukset lasketaan hieman :)
Johtavat
Rankkaus
Suosikit
