Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Rapporto Tecnico LongCat-Flash-Thinking-2601 – Ora Completamente Rilasciato!
Principali intuizioni:
🌍 RL agentico su larga scala (14 pagine di approfondimenti!)
🔹 Scalabilità dell'ambiente: Uno sguardo dettagliato al nostro pipeline automatizzato che costruisce oltre 10.000 ambienti eseguibili e verificabili in oltre 20 domini.
🔹 Infrastruttura RL: Un framework DORA aggiornato che supporta l'addestramento asincrono con oltre 32.000 ambienti concorrenti, affrontando problemi di stabilità in compiti a lungo termine e altamente eterogenei.
🛡️ Robustezza nel mondo reale
🔹 Iniezione di rumore: Niente più agenti "greenhouse". Analizziamo sistematicamente il rumore del mondo reale (rumore utente/strumento) e lo iniettiamo direttamente nel ciclo di addestramento.
🔹 RL curricolare: Una strategia basata su curriculum che indurisce gradualmente il modello contro ambienti disordinati e imperfetti.
🧠 Framework Heavy Thinking
🔹 Ragionamento parallelo: Espande la larghezza generando più traiettorie di ragionamento indipendenti.
🔹 Sintesi iterativa: Espande la profondità utilizzando un modello di sintesi per riflettere e sintetizzare traiettorie parallele prima di prendere decisioni finali.
🔹 Memoria contestuale: Un modulo di memoria progettato appositamente per mantenere il ragionamento coerente su orizzonti lunghi.
⚡ Attenzione Zigzag
🔹 Design di connettività Zigzag che combina MLA + SSA per ridurre il calcolo mantenendo il flusso di informazioni globale.
🔹 Passaggio a varianti sparse a metà addestramento produce un'accelerazione di 1,5× e supporta contesti di 1M-token — ponendo le basi per futuri progressi nel ragionamento agentico a lungo termine.
🔹 Esplora:
📊 Raggiunge SOTA tra
modelli open-source attraverso i principali benchmark agentici: ricerca, utilizzo di strumenti, ragionamento matematico e codifica.
Se desideri ulteriori dettagli, sentiti libero di controllare il rapporto tecnico completo.
• Documento:
• Sito web:
• GitHub:
• Hugging Face:




Principali
Ranking
Preferiti
