🚀 Технічний звіт LongCat-Flash-Thinking-2601 – тепер повністю опубліковано! Ключові інсайти: 🌍 Великомасштабний агентний RL (14 сторінок глибоких занурень!) 🔹 Масштабування середовища: детальний огляд нашого автоматизованого конвеєра, який створює 10 000+ виконуваних, перевірених середовищ у 20+ доменах. 🔹 Інфраструктура RL: Оновлений фреймворк DARA, який підтримує асинхронне навчання у 32 000+ одночасних середовищах, вирішуючи проблеми стабільності у довгохвостих і дуже гетерогенних завданнях. 🛡️ Міцність у дикій природі 🔹 Шумове впорскування: більше ніяких «парникових» агентів. Ми систематично аналізуємо реальний шум (шум користувача/інструменту) і вводимо його безпосередньо в навчальний цикл. 🔹 Curriculum RL: Стратегія на основі навчальної програми, яка поступово посилює модель проти брудних, недосконалих умов. 🧠 Фреймворк важкого мислення 🔹 Паралельне мислення: Розширює широту, генеруючи кілька незалежних траєкторій мислення. 🔹 Ітеративне узагальнення: Розширює глибину, використовуючи підсумкову модель для рефлексії та синтезу паралельних траєкторій перед прийняттям остаточних рішень. 🔹 Контекстна пам'ять: спеціально створений модуль пам'яті для підтримки логік узгодженим протягом довгих горизонтів. ⚡ Зигзаг уваги 🔹 Зигзагоподібне проєктування зв'язків, що поєднує MLA + SSA для зменшення обчислювальної потужності при збереженні глобального інформаційного потоку. 🔹 Перехід на розріджені варіанти під час навчання дає прискорення на 1,5× і підтримує контексти 1M-токенів — закладаючи основу для майбутніх проривів у агентному мисленні довгого контексту. 🔹 Досліджувати: 📊 Досягає SOTA серед Відкриті моделі на ключових агентних бенчмарках: пошук, використання інструментів, математичне мислення та кодування. Якщо хочете більше деталей, не соромтеся ознайомитися з повним технічним звітом. • Папер: • Вебсайт: • GitHub: • Обіймаюче обличчя: