Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METR er ikke 100 % «trygt», men det forblir en av de mest verdifulle målestokkene fordi det drives av et kompetent og ressurssterkt team som inkluderer mange ulike oppgaver som ikke er offentlig tilgjengelige for opplæring.
Andre benchmarks kan 'manipuleres' ved at AI-er vet svarene på forhånd (løst av private holdout-sett) eller gjør RL på oppgavene (løst ved å ha et mangfold av oppgaver). ... Benchmarks kan også ende opp med å bli ødelagt på noen måter (for eksempel hadde den opprinnelige SWE-Bench før "SWE-Bench Verified" noen utilsiktet uløselige problemer).
Jeg tror ulike benchmarks passer inn i nivåer. METR føles som en gullstandard Tier 1-evaluering. ARC-AGI og FrontierMath er heller ikke så ille, sannsynligvis som Tier 2. SWE-Bench virker litt mindre viktig å se på når du allerede har METR. Jeg ønsker desperat flere topp benchmarks utenfor matematikk og ingeniørfag. Jeg er spent på ARC-AGI-3 (videospillversjonen).
Topp
Rangering
Favoritter
