Questo documento del team LongCat affronta una questione che sta diventando inevitabile nella ricerca moderna sull'IA: perché i modelli di ragionamento che sembrano brillanti nei benchmark continuano a lottare quando vengono inseriti in ambienti reali e disordinati? Gli autori introducono LongCat-Flash-Thinking-2601, un modello Mixture-of-Experts con 560 miliardi di parametri progettato non solo per pensare, ma per agire. L'affermazione centrale è che il ragionamento agentico non emerge solo da una migliore catena di pensieri. Emergere da un'interazione sostenuta con ambienti, strumenti, rumore e fallimenti. La mossa tecnica è sottile ma importante. Invece di trattare il ragionamento come un problema statico di testo, il documento lo inquadra come un processo a ciclo chiuso: osserva → pianifica → agisci → ricevi feedback → rivedi. Questo cambiamento costringe a modifiche ovunque: costruzione dei dati, algoritmi di addestramento, infrastruttura e persino comportamento durante l'inferenza. Un contributo importante è la scalabilità ambientale. Invece di fare affidamento su pochi benchmark agenti artigianali, gli autori costruiscono una pipeline automatizzata che genera oltre 10.000 ambienti eseguibili in oltre 20 domini. Ogni ambiente è basato su dipendenze reali degli strumenti, database verificati e molteplici percorsi di soluzione validi. La difficoltà scala strutturalmente, non euristicamente. L'addestramento in questi ambienti normalmente collasserebbe sotto il rumore. Quindi il documento modella esplicitamente le imperfezioni del mondo reale: istruzioni ambigue, guasti degli strumenti, output parziali. Il rumore non è trattato come un caso limite. È integrato nel curriculum, aumentando progressivamente in complessità affinché la robustezza venga appresa, non riparata in seguito. In aggiunta a questo, estendono l'apprendimento per rinforzo asincrono (DORA) per gestire interazioni a lungo termine e a coda lunga su larga scala, mantenendo l'addestramento stabile anche con decine di migliaia di ambienti concorrenti. Durante il tempo di inferenza, il modello introduce la Modalità di Pensiero Pesante. Invece di una lunga catena di pensieri, esegue percorsi di ragionamento paralleli, quindi li aggrega attraverso una fase riflessiva secondaria. Questo scala sia la profondità che la larghezza del ragionamento e supera costantemente la coerenza interna su compiti complessi. I risultati sono sorprendenti. LongCat-Flash-Thinking-2601 stabilisce prestazioni all'avanguardia tra i modelli open-source su benchmark agentici come BrowseComp, τ²-Bench e VitaBench, rimanendo competitivo con modelli chiusi su matematica, programmazione e ricerca. Più importante, le prestazioni degradano molto meno in condizioni rumorose. L'implicazione più ampia è scomoda ma chiara: la qualità del ragionamento non è più il collo di bottiglia. La generalizzazione lo è. E la generalizzazione proviene dagli ambienti, non dai prompt. Questo documento sostiene che se vogliamo agenti che funzionino al di fuori delle dimostrazioni, dobbiamo smettere di addestrarli in mondi puliti e immaginari. La vera intelligenza si forgia dove le cose si rompono. Documento: LongCat-Flash-Thinking-2601 Rapporto Tecnico