$1 milionowy Benchmark AI Zamiast pytać „czy to jest poprawne?” To pyta: „czy ktoś by za to zapłacił?” W przypadku $1 miliona rzeczywistych zadań ekspertów, najlepsze modele wykonują tylko około 40–48%. Najlepszy: Claude Opus-4.6. Duża luka nie dotyczy wiedzy, lecz wykonania. Modele pomijają kroki, ograniczenia i szczegóły. AI jest potężne. Po prostu jeszcze nie jest niezawodne end-to-end. Ciekawi mnie, jak ta liczba będzie rosła 📈
Link do badania:
155