Der $1 Million AI Benchmark Anstatt zu fragen: "Ist es korrekt?" Fragt man: "Würde jemand dafür bezahlen?" Bei $1 Million an echten Expertenaufgaben erfüllen die besten Modelle nur etwa 40–48%. Das beste: Claude Opus-4.6. Die große Lücke ist nicht das Wissen, sondern die Ausführung. Modelle übersehen Schritte, Einschränkungen und Details. KI ist mächtig. Nur noch nicht durchgängig zuverlässig. Neugierig zu sehen, wie diese Zahl wächst 📈
Link zur Studie:
137