DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

La naiba... Această lucrare explică discret de ce majoritatea modelelor de "raționament" se destramă în momentul în care le deconectezi de la benchmark-uri curate și le lanci în lumea reală. Echipa LongCat abordează o întrebare pe care domeniul o evită mereu: dacă modelele de astăzi sunt atât de bune la raționament, de ce încă eșuează la comportamentul de bază al agentului odată ce uneltele se strică, instrucțiunile devin neclare sau mediile se opun? Răspunsul lor este incomod. Raționamentul nu eșuează pentru că lanțurile de gândire sunt prea scurte. Eșuează pentru că am antrenat gândirea fără consecințe. Lucrarea introduce LongCat-Flash-Thinking-2601, un model Mix-of-Experts cu 560B parametri, construit pe o idee simplă, dar radicală: raționamentul devine fiabil doar atunci când este forțat să acționeze, să observe eșecurile și să se adapteze în medii reale. În loc să trateze raționamentul ca generare de text, îl prezintă ca un ciclu: Observă → planifică → acționează → primește feedback → revizuiește. Acea schimbare se propagă peste tot. Datele nu mai sunt prompturi statice. Antrenamentul nu înseamnă traiectorii curate. Evaluarea nu înseamnă răspunsuri dintr-o singură lovitură. Una dintre cele mai importante contribuții este scalarea mediului. Autorii generează automat 10.000+ medii executabile în 20+ domenii, fiecare bazat pe unelte reale, baze de date reale și multiple căi valide de soluție. Dificultatea crește structural, nu prin trucuri inteligente cu prompturi. Esențial, nu dezinfectează lumea. Defecțiunile uneltelor, instrucțiunile ambigue, ieșirile parțiale și feedback-ul zgomotos sunt injectate deliberat. Zgomotul nu e o eroare. Este curriculumul. Pentru a menține stabilitatea antrenamentului la această scară, ei extind RL asincron (DORA) pentru a gestiona interacțiuni pe orizont lung, cu mai multe viraje, cu zeci de mii de medii concurente fără a se prăbuși. La momentul inferenței, introduc Modul de Gândire Grea. În loc de un singur lanț lung de gândire, modelul rulează căi de raționament paralele și apoi reflectă peste ele înainte de a acționa. Aceasta depășește constant auto-consistența în sarcini complexe, agentice. Rezultatele vorbesc tare. Performanțe de ultimă generație pe BrowseComp, τ²-Bench și VitaBench. Matematică solidă, programare și rezultate de căutare. Și, cel mai important, mult mai puțină degradare în condiții zgomotoase. Concluzia reală este mai clară decât orice cifră de referință: Calitatea raționamentului nu mai este blocajul. Generalizarea este. Iar generalizarea nu vine din prompturi mai bune sau gânduri mai lungi. Vine din medii care se opun....

Limită superioară

Clasament

Favorite