🚀 Technická zpráva LongCat-Flash-Thinking-2601 – nyní plně zveřejněná! Klíčové poznatky: 🌍 Velkoplošné agentické RL (14 stran hlubokých ponorů!) 🔹 Škálování prostředí: Podrobný pohled na náš automatizovaný pipeline, který vytváří 10 000+ spustitelných, ověřitelných prostředí napříč 20+ doménami. 🔹 RL infrastruktura: Vylepšený rámec DORA podporující asynchronní trénink s 32 000+ souběžnými prostředími, řeší problémy se stabilitou v dlouhých a vysoce heterogenních úlohách. 🛡️ Odolnost ve volné přírodě 🔹 Injekce hluku: Žádné další "skleníkové" látky. Systematicky analyzujeme skutečný šum (uživatelský/nástrojový šum) a přímo ho vkládáme do trénovací smyčky. 🔹 Curriculum RL: Strategie založená na kurikulu, která postupně zpřísňuje model proti chaotickým, nedokonalým prostředím. 🧠 Rámec těžkého myšlení 🔹 Paralelní uvažování: Rozšiřuje záběr generováním více nezávislých trajektorií uvažování. 🔹 Iterativní shrnutí: Rozšiřuje hloubku pomocí souhrnného modelu k reflexi a syntéze paralelních trajektorií před konečným rozhodnutím. 🔹 Kontextová paměť: Speciálně vytvořený paměťový modul, který udržuje uvažování soudržné i v dlouhodobých horizontech. ⚡ Cikcak pozornost 🔹 Návrh Zigzag Connectivity kombinující MLA + SSA pro snížení výpočetní kapacity při zachování globálního toku informací. 🔹 Přechod na řídké varianty během tréninku přináší zrychlení o 1,5 × a podporuje kontexty s 1M-tokenem — což vytváří základy pro budoucí průlomy v agentickém uvažování s dlouhým kontextem. 🔹 Prozkoumejte: 📊 Dosahuje soty mezi Open-source modely napříč klíčovými agentickými benchmarky: vyhledávání, používání nástrojů, matematické uvažování a programování. Pokud chcete více podrobností, klidně si přečtěte kompletní technickou zprávu. • Papír: • Web: • GitHub: • Objímající obličej: