DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Robert Youssef

Această lucrare a echipei LongCat abordează o întrebare care devine inevitabilă în cercetarea modernă în AI: de ce modelele de raționament care arată excelent pe benchmark-uri încă se chinuie când sunt plasate în medii reale și dezordonate? Autorii introduc LongCat-Flash-Thinking-2601, un model Mix-de-Experți cu 560B parametri, conceput nu doar pentru a gândi, ci și pentru a acționa. Afirmația centrală este că raționamentul agentic nu rezultă doar dintr-un lanț de gândire mai bun. Apare din interacțiunea susținută cu medii, unelte, zgomot și eșec. Mișcarea tehnică este subtilă, dar importantă. În loc să trateze raționamentul ca pe o problemă statică de text, lucrarea o prezintă ca pe un proces în buclă închisă: observă → planifică → acționează → primești feedback → revizuiește. Această schimbare forțează schimbări peste tot: construcția datelor, algoritmii de antrenament, infrastructura și chiar comportamentul în timpul inferenței. O contribuție majoră este scalarea mediului. În loc să se bazeze pe câteva benchmark-uri ale agenților realizate manual, autorii construiesc un pipeline automatizat care generează peste 10.000 de medii executabile în 20+ domenii. Fiecare mediu se bazează pe dependențe reale de unelte, baze de date verificate și multiple căi valide de soluție. Dificultatea scalează structural, nu euristic. Antrenamentul în aceste medii s-ar prăbuși în mod normal sub zgomot. Astfel, lucrarea modelează explicit imperfecțiuni din lumea reală: instrucțiuni ambigue, defecte ale uneltelor, ieșiri parțiale. Zgomotul nu este tratat ca un caz limită. Este integrat în curriculum, crescând progresiv în complexitate, astfel încât robustețea este învățată, nu remediată ulterior. Pe lângă aceasta, extind învățarea asincronă prin întărire (DORA) pentru a gestiona interacțiuni cu cozi lungi, cu mai multe viraje, la scară largă, menținând antrenamentul stabil chiar și cu zeci de mii de medii concurente. La momentul inferenței, modelul introduce modul de gândire grea. În loc de un singur lanț lung de gândire, rulează căi de raționament paralele, apoi le agregă printr-o etapă secundară de reflexie. Aceasta scalează atât adâncimea raționamentului, cât și lățimea și depășește constant auto-consistența la sarcini complexe. Rezultatele sunt remarcabile. LongCat-Flash-Thinking-2601 stabilește performanțe de ultimă generație în rândul modelelor open-source pe benchmark-uri agențice precum BrowseComp, τ²-Bench și VitaBench, rămânând totodată competitiv cu modelele închise la matematică, programare și căutare. Mai important, performanța scade mult mai puțin în condiții zgomotoase. Implicația mai largă este incomodă, dar clară: calitatea raționamentului nu mai este blocajul. Generalizarea este. Și generalizarea vine din medii, nu din prompturi. Această lucrare susține că, dacă vrem agenți care lucrează în afara demonstrațiilor, trebuie să încetăm să-i antrenăm în lumi curate, imaginare. Inteligența adevărată se forjează acolo unde lucrurile se strică. Articol: LongCat-Flash-Thinking-2601 Raport tehnic

Limită superioară

Clasament

Favorite