DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Je pense qu'il y a probablement trop d'accent mis sur la mesure de la tâche longue METR comme un signe de progrès de l'IA... ... mais cela n'a pas d'importance. Avec un peu d'aide de GPT-5.2 Pro, j'ai calculé les corrélations entre log(METR) et d'autres indicateurs clés, et elles corrèlent toutes fortement.

Merci encore à @EpochAIResearch d'avoir rendu tant de scores de référence disponibles au public.

84

Meilleurs

Classement

Favoris