Je pense qu'il y a probablement trop d'accent mis sur la mesure de la tâche longue METR comme un signe de progrès de l'IA... ... mais cela n'a pas d'importance. Avec un peu d'aide de GPT-5.2 Pro, j'ai calculé les corrélations entre log(METR) et d'autres indicateurs clés, et elles corrèlent toutes fortement.
Merci encore à @EpochAIResearch d'avoir rendu tant de scores de référence disponibles au public.
84