Três coisas sobre o gráfico METR: 1) Mede algo real sobre a capacidade de codificação, mas também não exatamente o que afirma medir 2) Muitos outros benchmarks correlacionam-se com ele de forma muito alta e estão a aumentar exponencialmente 3) A IA continua irregular em aspectos-chave que são difíceis de medir