🚀 LongCat-Flash-Thinking-2601 Technischer Bericht – Jetzt vollständig veröffentlicht! Wichtige Erkenntnisse: 🌍 Großangelegte agentische RL (14 Seiten tiefgehende Analysen!) 🔹 Umgebungs-Skalierung: Ein detaillierter Blick auf unsere automatisierte Pipeline, die über 10.000 ausführbare, verifizierbare Umgebungen in über 20 Domänen erstellt. 🔹 RL-Infrastruktur: Ein verbessertes DORA-Framework, das asynchrones Training mit über 32.000 gleichzeitigen Umgebungen unterstützt und Stabilitätsprobleme bei langanhaltenden und hochheterogenen Aufgaben angeht. 🛡️ Robustheit in der Wildnis 🔹 Geräuschinjektion: Keine "Gewächshaus"-Agenten mehr. Wir analysieren systematisch reale Geräusche (Benutzer-/Werkzeuggeräusche) und injizieren sie direkt in die Trainingsschleife. 🔹 Curriculum RL: Eine curriculum-basierte Strategie, die das Modell schrittweise gegen unordentliche, unvollkommene Umgebungen stärkt. 🧠 Heavy Thinking-Framework 🔹 Paralleles Denken: Erweitert die Breite, indem mehrere unabhängige Denktrajektorien generiert werden. 🔹 Iterative Zusammenfassung: Erweitert die Tiefe, indem ein Zusammenfassungsmodell verwendet wird, um parallele Trajektorien zu reflektieren und zu synthetisieren, bevor endgültige Entscheidungen getroffen werden. 🔹 Kontextgedächtnis: Ein speziell entwickeltes Gedächtnismodul, um das Denken über lange Zeiträume kohärent zu halten. ⚡ Zigzag-Attention 🔹 Zigzag-Konnektivitätsdesign, das MLA + SSA kombiniert, um den Rechenaufwand zu reduzieren und gleichzeitig den globalen Informationsfluss zu erhalten. 🔹 Mid-Training-Wechsel zu spärlichen Varianten führt zu einer 1,5-fachen Beschleunigung und unterstützt 1M-Token-Kontexte – legt den Grundstein für zukünftige Durchbrüche im agentischen Denken mit langen Kontexten. 🔹 Erkunden: 📊 Erreicht SOTA unter Open-Source-Modellen über wichtige agentische Benchmarks: Suche, Werkzeugnutzung, mathematisches Denken und Programmierung. Wenn Sie mehr Details möchten, können Sie gerne den vollständigen technischen Bericht einsehen. • Papier: • Website: • GitHub: • Hugging Face: