Benchmark-ul AI de 1 milion de dolari În loc să întrebi "este corect?" Aceasta întreabă: "ar plăti cineva pentru asta?" Peste 1 milion de dolari în sarcini reale de experți, modelele de top realizează doar aproximativ 40–48%. Cel mai bun: Claude Opus-4.6. O mare diferență nu este cunoașterea, ci execuția. Modelele ratează pași, constrângeri și detalii. AI-ul este puternic. Doar că nu este încă fiabil de la un capăt la altul. Sunt curios să văd cum acest număr crește 📈
Link către studiu:
171