🚀 Raport techniczny LongCat-Flash-Thinking-2601 – Teraz w pełni opublikowany! Kluczowe spostrzeżenia: 🌍 Duża skala agentowego RL (14 stron głębokich analiz!) 🔹 Skalowanie środowiska: Szczegółowy przegląd naszego zautomatyzowanego procesu, który buduje 10 000+ wykonalnych, weryfikowalnych środowisk w ponad 20 dziedzinach. 🔹 Infrastruktura RL: Ulepszony framework DORA, który wspiera asynchroniczne szkolenie z 32 000+ równoległymi środowiskami, rozwiązując problemy ze stabilnością w zadaniach o długim ogonie i wysoce heterogenicznych. 🛡️ Odporność w terenie 🔹 Wstrzykiwanie szumów: Koniec z agentami "szklarnianymi". Systematycznie analizujemy szum z rzeczywistego świata (szum użytkownika/narzędzia) i wprowadzamy go bezpośrednio do pętli szkoleniowej. 🔹 Curriculum RL: Strategia oparta na programie nauczania, która stopniowo wzmacnia model przeciwko chaotycznym, niedoskonałym środowiskom. 🧠 Ramy Heavy Thinking 🔹 Rozumowanie równoległe: Rozszerza zakres, generując wiele niezależnych trajektorii rozumowania. 🔹 Iteracyjne podsumowanie: Rozszerza głębokość, wykorzystując model podsumowujący do refleksji i syntezowania równoległych trajektorii przed podjęciem ostatecznych decyzji. 🔹 Pamięć kontekstowa: Celowo zbudowany moduł pamięci, aby utrzymać spójność rozumowania na długich horyzontach. ⚡ Uwaga Zigzag 🔹 Projekt połączenia Zigzag łączący MLA + SSA w celu zmniejszenia obliczeń przy zachowaniu globalnego przepływu informacji. 🔹 Przełączanie w trakcie szkolenia na rzadkie warianty przynosi 1,5× przyspieszenie i wspiera konteksty 1M-token — kładąc podwaliny pod przyszłe przełomy w agentowym rozumowaniu o długim kontekście. 🔹 Eksploruj: 📊 Osiąga SOTA wśród otwartych modeli w kluczowych benchmarkach agentowych: wyszukiwanie, użycie narzędzi, rozumowanie matematyczne i kodowanie. Jeśli chcesz więcej szczegółów, śmiało sprawdź pełny raport techniczny. • Artykuł: • Strona internetowa: • GitHub: • Hugging Face: