Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nimeni nu știe ce urmează
O singură persoană cu o idee ar putea acționa ca "CEO" al unei companii cu 10.000 de agenți în 2 ani
Vei avea "software ca gând", nu ca serviciu. Când vorbești despre un miliard de instanțe, "roiul" construiește backend-ul, frontend-ul, securitatea și infrastructura de scalare în câteva minute.
Ultimele 18 luni au adus cel mai rapid ritm de progres pe care l-am văzut vreodată în istoria informaticii.
Te implor să citești despre SWE Pro. A fost făcut să fie rezistent la contaminare. Încă nu am citit un motiv bun pentru care, odată ce obținem un scor de 90-100% la acest benchmark, toată ingineria software să nu fie rezolvată. Acesta este unul dintre cele mai complexe și dificil concepute repere. Sarcinile sunt atât de lungi încât agentul trebuie să poată învăța din propriile teste eșuate în aceeași sesiune – practic, un model ar trebui să aibă o formă de învățare continuă pentru a depăși acest benchmark.
Previzualizarea Gemini 2.5 a obținut 13%
Previzualizarea Gemini 3 a obținut un scor de 43%
Claude Opus 4.5 este în prezent în frunte, cu 45% (conform scale ai) — AI OAMENI DE LA ANTHROPIC CARE ÎȚI SPUN CĂ ÎL URMĂRESC PE CLAUDE TOATĂ ZIUA ȘI COMPLETEAZĂ GOLURILE.
Sigur, poți striga "lupul" că sunt motivați să spună asta, dar cronologia ta X nu a fost în ultimele 2 săptămâni un șoc constant despre cât de bune sunt modelele la programare? Mai ales 4.5 Opus?
Este clar pentru mine că ingineria software se va rezolva în 2 ani. Chiar dacă ai dubla, nu, TRIPLU, asta ar avea un impact PROFUND asupra PIB-ului și a vieții medii americane

Limită superioară
Clasament
Favorite
