🚀 LongCat-Flash-Thinking-2601 Teknisk rapport – nu helt släppt! Viktiga insikter: 🌍 Storskalig agentisk RL (14 sidor med djupdykningar!) 🔹 Miljöskalning: En detaljerad titt på vår automatiserade pipeline som bygger 10 000+ körbara, verifierbara miljöer över 20+ domäner. 🔹 RL-infrastruktur: Ett uppgraderat DORA-ramverk som stödjer asynkron träning med 32 000+ samtidiga miljöer, och hanterar stabilitetsproblem i långsvans- och mycket heterogena uppgifter. 🛡️ Robusthet i det vilda 🔹 Bullerinjektion: Inga fler "växthus"-medel. Vi analyserar systematiskt verkligt brus (användar-/verktygsbrus) och injicerar det direkt i träningsloopen. 🔹 Läroplan RL: En läroplansbaserad strategi som gradvis stärker modellen mot röriga, ofullkomliga miljöer. 🧠 Tungt tänkande ramverk 🔹 Parallellt resonemang: Utökar bredden genom att generera flera oberoende resonemangsbanor. 🔹 Iterativ sammanfattning: Utökar djupet genom att använda en sammanfattningsmodell för att reflektera över och syntetisera parallella banor innan slutgiltiga beslut fattas. 🔹 Kontextminne: En specialbyggd minnesmodul för att hålla resonemanget sammanhängande över långa tidshorisonter. ⚡ Zigzag Uppmärksamhet 🔹 Zigzag Connectivity kombinerar MLA + SSA för att minska beräkningen samtidigt som det globala informationsflödet bevaras. 🔹 Mitt i träningen ger en övergång till glesa varianter en hastighetsökning på 1,5 × och stödjer 1M-token-kontexter — vilket lägger grunden för framtida genombrott inom långkontext agentiskt resonemang. 🔹 Utforska: 📊 Uppnår SOTA bland Öppna källkodsmodeller över viktiga agentiska benchmarks: sökning, verktygsanvändning, matematisk resonemang och kodning. Om du vill ha mer detaljer, tveka inte att kolla in hela den tekniska rapporten. • Papper: • Webbplats: • GitHub: • Kramande ansikte: