Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Creo que probablemente hay demasiado énfasis en la medición de tareas largas del METR como señal del progreso de la IA...
... Pero no importa. Con un poco de ayuda de GPT-5.2 Pro, calculé las correlaciones entre log(METR) y otros benchmarks clave, y básicamente todos se correlacionan de forma muy alta
Gracias de nuevo a @EpochAIResearch por hacer públicos tantos resultados de benchmark.

77
Populares
Ranking
Favoritas
