Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Această lucrare a echipei LongCat abordează o întrebare care devine inevitabilă în cercetarea modernă în AI: de ce modelele de raționament care arată excelent pe benchmark-uri încă se chinuie când sunt plasate în medii reale și dezordonate?
Autorii introduc LongCat-Flash-Thinking-2601, un model Mix-de-Experți cu 560B parametri, conceput nu doar pentru a gândi, ci și pentru a acționa. Afirmația centrală este că raționamentul agentic nu rezultă doar dintr-un lanț de gândire mai bun. Apare din interacțiunea susținută cu medii, unelte, zgomot și eșec.
Mișcarea tehnică este subtilă, dar importantă. În loc să trateze raționamentul ca pe o problemă statică de text, lucrarea o prezintă ca pe un proces în buclă închisă: observă → planifică → acționează → primești feedback → revizuiește.
Această schimbare forțează schimbări peste tot: construcția datelor, algoritmii de antrenament, infrastructura și chiar comportamentul în timpul inferenței.
O contribuție majoră este scalarea mediului. În loc să se bazeze pe câteva benchmark-uri ale agenților realizate manual, autorii construiesc un pipeline automatizat care generează peste 10.000 de medii executabile în 20+ domenii. Fiecare mediu se bazează pe dependențe reale de unelte, baze de date verificate și multiple căi valide de soluție. Dificultatea scalează structural, nu euristic.
Antrenamentul în aceste medii s-ar prăbuși în mod normal sub zgomot. Astfel, lucrarea modelează explicit imperfecțiuni din lumea reală: instrucțiuni ambigue, defecte ale uneltelor, ieșiri parțiale.
Zgomotul nu este tratat ca un caz limită. Este integrat în curriculum, crescând progresiv în complexitate, astfel încât robustețea este învățată, nu remediată ulterior.
Pe lângă aceasta, extind învățarea asincronă prin întărire (DORA) pentru a gestiona interacțiuni cu cozi lungi, cu mai multe viraje, la scară largă, menținând antrenamentul stabil chiar și cu zeci de mii de medii concurente.
La momentul inferenței, modelul introduce modul de gândire grea. În loc de un singur lanț lung de gândire, rulează căi de raționament paralele, apoi le agregă printr-o etapă secundară de reflexie. Aceasta scalează atât adâncimea raționamentului, cât și lățimea și depășește constant auto-consistența la sarcini complexe.
Rezultatele sunt remarcabile. LongCat-Flash-Thinking-2601 stabilește performanțe de ultimă generație în rândul modelelor open-source pe benchmark-uri agențice precum BrowseComp, τ²-Bench și VitaBench, rămânând totodată competitiv cu modelele închise la matematică, programare și căutare.
Mai important, performanța scade mult mai puțin în condiții zgomotoase.
Implicația mai largă este incomodă, dar clară: calitatea raționamentului nu mai este blocajul. Generalizarea este. Și generalizarea vine din medii, nu din prompturi.
Această lucrare susține că, dacă vrem agenți care lucrează în afara demonstrațiilor, trebuie să încetăm să-i antrenăm în lumi curate, imaginare. Inteligența adevărată se forjează acolo unde lucrurile se strică.
Articol: LongCat-Flash-Thinking-2601 Raport tehnic

8
Această lucrare arată de ce scalarea agenților cu mai multe demo-uri este un impas.
EvoCUA face o afirmație simplă, dar incomodă: agenții de utilizare a calculatoarelor nu eșuează pentru că nu sunt "suficient de inteligenți".
Ei eșuează pentru că sunt dresați ca niște papagali, nu ca niște elevi.
Majoritatea agenților GUI copiază urmele statice. Asta funcționează pentru sarcini scurte. Se prăbușește în momentul în care ai nevoie de planificare, recuperare sau judecată.
EvoCUA schimbă paradigma de la scalarea datelor la scalarea experienței.
În loc să adune mai multe capturi de ecran și scripturi, construiește un cerc închis:
• sintetizarea automată a sarcinilor
• atașează validatori executabili (fără recompense vagi)
• desfășurarea unor implementări masive paralele sandbox
• compară traiectoriile succesului versus eșecului
• să întărească ce funcționează, să rescrie ce se strică
Eșecurile nu sunt zgomot aici.
Sunt semnalul de cea mai mare valoare.
Modelul învață unde a greșit, de ce și cum să o repare, apoi internalizează acea corecție.
Acest lucru contează pentru că agenții GUI mor la granițe:
Stări UI neașteptate
Fluxuri de lucru pe termen lung
Erori de sincronizare, comandă și recuperare
EvoCUA se antrenează direct pe aceste cazuri limită.
Rezultatul:
• 56,7% succes pe OSWorld
• noul SOTA open-source
• modele mai mici care depășesc liniile de bază mai mari
• competitiv cu cele mai bune sisteme cu greutăți închise
Adevărata perspectivă nu este victoria de referință.
Este această schimbare:
Agenții nu devin mai buni văzând mai multe exemple.
Se îmbunătățesc trăind prin mai multă experiență.
Dacă ești serios în privința utilizării calculatoarelor autonome, această lucrare este o lectură obligatorie.
Articol: EvoCUA: Evoluția agenților de utilizare a calculatorului prin învățarea de la
Experiență sintetică scalabilă

48
Limită superioară
Clasament
Favorite
