Drei Dinge zum METR-Diagramm: 1) Es misst etwas Reales über die Programmierfähigkeit, aber auch nicht genau das, was es zu messen behauptet 2) Viele andere Benchmarks korrelieren sehr stark damit und steigen exponentiell an 3) AI bleibt in wichtigen Aspekten unregelmäßig, die schwer zu messen sind