Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR nie jest w 100% "bezpieczny", ale pozostaje jednym z najcenniejszych benchmarków, ponieważ jest prowadzony przez kompetentny, dobrze wyposażony zespół, który obejmuje wiele różnorodnych zadań, które nie są publicznie dostępne do treningu.
Inne benchmarki mogą być "oszukiwane" przez AI, które znają odpowiedzi z wyprzedzeniem (rozwiązane przez prywatne zestawy holdout) lub wykonując RL na zadaniach (rozwiązane przez różnorodność zadań). ...Benchmarki mogą również w pewien sposób być zepsute (np. oryginalny SWE-Bench przed "SWE-Bench Verified" miał kilka przypadkowo nierozwiązywalnych problemów).
Myślę, że różne benchmarki pasują do różnych poziomów. METR wydaje się być złotym standardem oceny Tier 1. ARC-AGI i FrontierMath również nie są takie złe, prawdopodobnie na poziomie Tier 2. SWE-Bench wydaje się być mniej istotny, gdy już masz METR. Pilnie pragnę więcej najlepszych benchmarków poza matematyką i inżynierią. Cieszę się na ARC-AGI-3 (ten dotyczący gier wideo).
Najlepsze
Ranking
Ulubione
