🚀 Технический отчет LongCat-Flash-Thinking-2601 – теперь полностью выпущен! Ключевые идеи: 🌍 Агентное обучение с подкреплением в большом масштабе (14 страниц глубокого анализа!) 🔹 Масштабирование среды: Подробный обзор нашего автоматизированного конвейера, который создает более 10,000 исполняемых, проверяемых сред в более чем 20 областях. 🔹 Инфраструктура RL: Обновленная структура DORA, которая поддерживает асинхронное обучение с более чем 32,000 параллельными средами, решая проблемы стабильности в задачах с длинным хвостом и высокой гетерогенностью. 🛡️ Робустность в дикой природе 🔹 Инъекция шума: Больше никаких "тепличных" агентов. Мы систематически анализируем шум в реальном мире (шум от пользователей/инструментов) и вводим его непосредственно в цикл обучения. 🔹 Учебный RL: Стратегия на основе учебного плана, которая постепенно усложняет модель в условиях неаккуратной, несовершенной среды. 🧠 Фреймворк Heavy Thinking 🔹 Параллельное рассуждение: Расширяет широту, генерируя несколько независимых траекторий рассуждения. 🔹 Итеративное обобщение: Расширяет глубину, используя модель обобщения для размышления и синтеза параллельных траекторий перед принятием окончательных решений. 🔹 Контекстная память: Специально разработанный модуль памяти для поддержания согласованности рассуждений на длинных горизонтах. ⚡ Зигзагообразное внимание 🔹 Дизайн зигзагообразной связности, объединяющий MLA + SSA для снижения вычислений при сохранении глобального потока информации. 🔹 Переключение на разреженные варианты в середине обучения дает ускорение в 1.5× и поддерживает контексты на 1M токенов — закладывая основу для будущих прорывов в агентном рассуждении с длинным контекстом. 🔹 Исследуйте: 📊 Достигает SOTA среди моделей с открытым исходным кодом по ключевым агентным бенчмаркам: поиск, использование инструментов, математическое рассуждение и программирование. Если вы хотите больше деталей, не стесняйтесь ознакомиться с полным техническим отчетом. • Статья: • Веб-сайт: • GitHub: • Hugging Face: