Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmark-ul AI de 1 milion de dolari
În loc să întrebi "este corect?"
Aceasta întreabă: "ar plăti cineva pentru asta?"
Peste 1 milion de dolari în sarcini reale de experți, modelele de top realizează doar aproximativ 40–48%.
Cel mai bun: Claude Opus-4.6.
O mare diferență nu este cunoașterea, ci execuția.
Modelele ratează pași, constrângeri și detalii.
AI-ul este puternic. Doar că nu este încă fiabil de la un capăt la altul.
Sunt curios să văd cum acest număr crește 📈

Link către studiu:
171
Limită superioară
Clasament
Favorite
