DApp Store | Centrum Web3 pro události a hry

Populární témata

Lidé si tento graf rychle špatně vykládají kvůli přehnané reklamě Tady je jasné vysvětlení, co se děje: METR vytváří benchmark softwarových úkolů (ladění složitých systémů, trénování ML modelů nebo hledání bezpečnostních zranitelností) Měří, jak dlouho trvá každý úkol splnit zkušenému lidskému expertovi, a pak testují AI agenty na těchto úkolech. "Časový horizont" je souhrnná statistika: délka úkolu, při které daná AI uspěje v 50 % případů. Model s časovým horizontem 2 hodiny dokončí polovinu úkolů, které by lidskému expertovi zabraly 2 hodiny. METR právě oznámil, že Claude Opus 4.6 má 50% časový horizont ~14,5 hodiny, což by samozřejmě bylo neuvěřitelně působivé... ale METR nám říká, abychom byli opatrní! Existuje statistický problém. Jednoduše už není dost náročných úkolů, které by ukotvily horní hranici křivky, a modely Frontier nyní uspějí téměř ve všem v této sadě úkolů. Takže malé náhodné odchylky výsledků dramaticky mění odhad: 95% interval spolehlivosti se pohybuje od 6 hodin do 98 hodin, což je zjevně nespolehlivý rozsah, ze kterého by někdo mohl vyvozovat závěry. METR sama pracuje na nových metodách měření na této úrovni, takže očekávaná měření taperingu je o něco :)

Top

Hodnocení

Oblíbené