🚀 LongCat-Flash-Thinking-2601 Technisch Rapport – Nu Volledig Vrijgegeven! Belangrijke inzichten: 🌍 Grootschalige agentic RL (14 pagina's diepgaande analyses!) 🔹 Omgevingsschaal: Een gedetailleerd kijkje naar onze geautomatiseerde pijplijn die 10.000+ uitvoerbare, verifieerbare omgevingen bouwt in meer dan 20 domeinen. 🔹 RL-infrastructuur: Een geüpgraded DORA-framework dat asynchrone training ondersteunt met 32.000+ gelijktijdige omgevingen, waarmee stabiliteitsproblemen in lange staarten en zeer heterogene taken worden aangepakt. 🛡️ Robuustheid in de praktijk 🔹 Geluidsinjectie: Geen "broeikas"-agenten meer. We analyseren systematisch ruis uit de echte wereld (gebruikers-/hulpgeluiden) en injecteren deze direct in de trainingslus. 🔹 Curriculum RL: Een curriculum-gebaseerde strategie die het model geleidelijk versterkt tegen rommelige, onvolmaakte omgevingen. 🧠 Heavy Thinking-framework 🔹 Parallel redeneren: Breidt de breedte uit door meerdere onafhankelijke redeneringstrajecten te genereren. 🔹 Iteratieve samenvatting: Breidt de diepte uit door een samenvattingsmodel te gebruiken om parallelle trajecten te reflecteren en te synthetiseren voordat definitieve beslissingen worden genomen. 🔹 Contextgeheugen: Een speciaal ontworpen geheugeneenheid om redenering coherent te houden over lange tijdshorizonten. ⚡ Zigzag Aandacht 🔹 Zigzag Connectiviteitsontwerp dat MLA + SSA combineert om de rekentijd te verminderen terwijl de globale informatiestroom behouden blijft. 🔹 Tussentijdse overstap naar spaarzame varianten levert een 1,5× versnelling op en ondersteunt 1M-token contexten — legt de basis voor toekomstige doorbraken in lange-context agentic redenering. 🔹 Verken: 📊 Bereikt SOTA onder open-source modellen over belangrijke agentic benchmarks: zoeken, gereedschapsgebruik, wiskundige redenering en coderen. Als je meer details wilt, voel je vrij om het volledige technische rapport te bekijken. • Paper: • Website: • GitHub: • Hugging Face: