Ehrlich gesagt könnte ein Panel von Power-Usern im Stil von Consumer Reports besser sein als METR usw. zur Messung des Fortschritts von KI, da es viel robuster gegenüber Schwankungen ist. Das soll nicht skeptisch klingen, als Power-User denke ich, dass es in den letzten Monaten äußerst bemerkenswerte Fortschritte gegeben hat, wenn das etwas wert ist.