Acho que há provavelmente ênfase demais na medição de longo prazo do METR como um sinal de progresso da IA... ... mas não importa. Com um pouco de ajuda do GPT-5.2 Pro, calculei as correlações entre log(METR) e outros benchmarks chave, e basicamente todos eles correlacionam-se fortemente.
Obrigado novamente ao @EpochAIResearch por tornar disponíveis publicamente tantas pontuações de referência.
75