Die Leute missverstehen schnell dieses Diagramm als Hype Hier ist eine klare Erklärung, was passiert: METR erstellt einen Benchmark für Softwareaufgaben (Debugging komplexer Systeme, Training von ML-Modellen oder Auffinden von Sicherheitsanfälligkeiten). Sie messen, wie lange es dauert, bis ein erfahrener Mensch jede Aufgabe abgeschlossen hat, und testen dann KI-Agenten mit denselben Aufgaben. Der "Zeit-Horizont" ist eine zusammenfassende Statistik: die Aufgabendauer, bei der eine bestimmte KI 50 % der Zeit erfolgreich ist. Ein Modell mit einem Zeit-Horizont von 2 Stunden erledigt die Hälfte der Aufgaben, die einen menschlichen Experten 2 Stunden kosten würden. METR hat gerade berichtet, dass Claude Opus 4.6 einen Zeit-Horizont von ~14,5 Stunden hat, was natürlich unglaublich beeindruckend wäre... aber METR sagt uns, vorsichtig zu sein! Es gibt ein statistisches Problem. Es gibt einfach nicht genug schwierige Aufgaben, um das obere Ende der Kurve zu verankern, und Grenzmodelle haben jetzt fast alles im Aufgabenbereich erfolgreich abgeschlossen. Kleine zufällige Variationen in den Ergebnissen beeinflussen die Schätzung dramatisch: Das 95%-Konfidenzintervall reicht von 6 Stunden bis 98 Stunden, was eindeutig ein unzuverlässiger Bereich ist, aus dem man Schlussfolgerungen ziehen könnte. METR selbst arbeitet an neuen Methoden, um auf diesem Niveau zu messen, also dämpfen Sie die Erwartungen ein wenig :)