Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Robert Youssef

Черт возьми… эта статья из MIT тихо объясняет, как модели могут учиться рассуждать, когда они полностью застряли 🤯 Основная идея обманчиво проста: Рассуждение не удается, потому что обучению не за что зацепиться. Когда уровень успеха модели падает почти до нуля, обучение с подкреплением перестает работать. Нет сигнала вознаграждения. Нет градиента. Нет улучшения. Модель не "плоха в рассуждениях" — она застряла за пределами обучаемости. Эта статья переосмысляет проблему. Вместо того чтобы спрашивать "Как заставить модель решать более сложные задачи?" Они спрашивают: "Как модель создает задачи, из которых она может учиться?" Вот тут и появляется SOAR. SOAR разделяет одну предобученную модель на две роли: • Студент, который пытается решить крайне сложные целевые задачи • Учитель, который генерирует новые учебные задачи для студента Но ограничение жестокое. Учитель никогда не вознаграждается за умные вопросы, разнообразие или реализм. Он вознаграждается только в том случае, если производительность студента улучшается на фиксированном наборе реальных оценочных задач. Нет улучшения? Нет вознаграждения. Это полностью меняет динамику. Учитель не оптимизирует для эстетики или новизны. Он оптимизирует для прогресса в обучении. Со временем учитель открывает то, что люди обычно закодируют вручную: Промежуточные задачи. Не решенные версии целевой задачи. Не упрощенные копии. А задачи, которые находятся прямо внутри текущей границы возможностей студента — достаточно близко, чтобы учиться, и достаточно далеко, чтобы это имело значение. Вот удивительная часть. Сгенерированные задачи не нуждаются в правильных ответах. Им даже не нужно быть решаемыми учителем. Важно лишь строение. Если вопрос заставляет студента рассуждать в правильном направлении, сигнал градиента возникает даже без идеального контроля. Обучение происходит через борьбу, а не подражание. Вот почему SOAR работает там, где прямое RL терпит неудачу. Вместо того чтобы врезаться в обрыв вознаграждения, студент поднимается по лестнице, которую он помог построить. Эксперименты это показывают предельно ясно. На контрольных точках, где модели начинают с абсолютного нуля — буквально 0 успехов — стандартные методы застывают. С SOAR производительность начинает постепенно расти, поскольку учебный план перестраивается вокруг внутреннего знания модели. Это тихий, но радикальный сдвиг. Мы обычно думаем, что рассуждение ограничено размером модели, масштабом данных или вычислительными ресурсами для обучения. Эта статья предполагает совершенно другую узкую горлышко: Плохие условия обучения. Если модели могут генерировать свои собственные ступеньки, многие "ограничения рассуждения" перестают быть ограничениями вообще. Никакой новой архитектуры. Никаких дополнительных человеческих меток. Никаких больших моделей. Только лучшие стимулы для того, как разворачивается обучение. Неудобный вывод таков: Плато рассуждения не являются фундаментальными. Они самонаводящиеся. А путь вперед не в том, чтобы заставлять модели думать усерднее, а в том, чтобы позволить им решать, что учить дальше.

Топ

Рейтинг

Избранное