Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Черт возьми... Этот документ тихо объясняет, почему большинство моделей «рассуждений» разваливаются в тот момент, когда вы отключаете их от чистых эталонов и бросаете в реальный мир.
Команда LongCat поднимает вопрос, который область продолжает избегать: если сегодняшние модели так хороши в рассуждениях, почему они все еще терпят неудачи в базовом поведении агентов, когда инструменты ломаются, инструкции становятся неясными или окружающая среда начинает сопротивляться?
Их ответ неудобен. Рассуждение не терпит неудачу, потому что цепочки мыслей слишком короткие. Оно терпит неудачу, потому что мы обучали мышление без последствий.
Документ представляет LongCat-Flash-Thinking-2601, модель Mixture-of-Experts с 560B параметрами, построенную вокруг простой, но радикальной идеи: рассуждение становится надежным только тогда, когда его заставляют действовать, наблюдать за неудачами и адаптироваться в реальных условиях.
Вместо того чтобы рассматривать рассуждение как генерацию текста, они представляют его как цикл:
наблюдать → планировать → действовать → получать обратную связь → пересматривать.
Этот сдвиг затрагивает все. Данные больше не являются статичными подсказками. Обучение не является чистыми траекториями. Оценка не является одноразовыми ответами.
Одним из самых важных вкладов является масштабирование среды. Авторы автоматически генерируют более 10,000 исполняемых сред в более чем 20 областях, каждая из которых основана на реальных инструментах, реальных базах данных и множестве действительных путей решения. Сложность увеличивается структурно, а не за счет хитрых подсказок.
Критически важно, что они не очищают мир. Сбои инструментов, неоднозначные инструкции, частичные выводы и шумная обратная связь намеренно вводятся. Шум не является ошибкой. Это учебный план.
Чтобы поддерживать стабильность обучения на этом уровне, они расширяют асинхронное RL (DORA), чтобы справляться с долгосрочными, многоповоротными взаимодействиями с десятками тысяч параллельных сред, не давая им рухнуть.
Во время вывода они вводят Режим Тяжелого Рассуждения. Вместо одной длинной цепочки мыслей модель запускает параллельные пути рассуждений, а затем рефлексирует по ним перед действием. Это последовательно превосходит самосогласованность в сложных, агентных задачах.
Результаты говорят громко. Передовые показатели на BrowseComp, τ²-Bench и VitaBench. Сильные результаты в математике, программировании и поиске. И, что наиболее важно, гораздо меньше деградации в шумных условиях.
Настоящий вывод острее любого эталонного числа:
Качество рассуждений больше не является узким местом.
Обобщение является.
А обобщение не приходит от лучших подсказок или более длинных мыслей. Оно приходит из сред, которые оказывают сопротивление....

Топ
Рейтинг
Избранное
