🚀 Rapporto Tecnico LongCat-Flash-Thinking-2601 – Ora Completamente Rilasciato! Principali intuizioni: 🌍 RL agentico su larga scala (14 pagine di approfondimenti!) 🔹 Scalabilità dell'ambiente: Uno sguardo dettagliato al nostro pipeline automatizzato che costruisce oltre 10.000 ambienti eseguibili e verificabili in oltre 20 domini. 🔹 Infrastruttura RL: Un framework DORA aggiornato che supporta l'addestramento asincrono con oltre 32.000 ambienti concorrenti, affrontando problemi di stabilità in compiti a lungo termine e altamente eterogenei. 🛡️ Robustezza nel mondo reale 🔹 Iniezione di rumore: Niente più agenti "greenhouse". Analizziamo sistematicamente il rumore del mondo reale (rumore utente/strumento) e lo iniettiamo direttamente nel ciclo di addestramento. 🔹 RL curricolare: Una strategia basata su curriculum che indurisce gradualmente il modello contro ambienti disordinati e imperfetti. 🧠 Framework Heavy Thinking 🔹 Ragionamento parallelo: Espande la larghezza generando più traiettorie di ragionamento indipendenti. 🔹 Sintesi iterativa: Espande la profondità utilizzando un modello di sintesi per riflettere e sintetizzare traiettorie parallele prima di prendere decisioni finali. 🔹 Memoria contestuale: Un modulo di memoria progettato appositamente per mantenere il ragionamento coerente su orizzonti lunghi. ⚡ Attenzione Zigzag 🔹 Design di connettività Zigzag che combina MLA + SSA per ridurre il calcolo mantenendo il flusso di informazioni globale. 🔹 Passaggio a varianti sparse a metà addestramento produce un'accelerazione di 1,5× e supporta contesti di 1M-token — ponendo le basi per futuri progressi nel ragionamento agentico a lungo termine. 🔹 Esplora: 📊 Raggiunge SOTA tra modelli open-source attraverso i principali benchmark agentici: ricerca, utilizzo di strumenti, ragionamento matematico e codifica. Se desideri ulteriori dettagli, sentiti libero di controllare il rapporto tecnico completo. • Documento: • Sito web: • GitHub: • Hugging Face: