Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Тихое обучение признаков в трансформерах
Это одна из самых увлекательных статей, которые я прочитал на этой неделе.
Позвольте мне объяснить:
В ней утверждается, что кривые потерь могут вводить в заблуждение относительно того, что модель изучает.
Стандартный подход к мониторингу обучения нейронных сетей основывается на потере как основном показателе прогресса. Если потеря стабильна, ничего не происходит. Если потеря снижается, обучение происходит.
Но это предположение не работает в алгоритмических задачах.
Это новое исследование обучало трансформеры на десяти основополагающих алгоритмических задачах и обнаружило "тихие признаки": внутренние представления, которые развиваются, пока потеря кажется стабильной.
Они обнаружили, что модели изучают промежуточные вычислительные шаги задолго до того, как эти шаги улучшают производительность вывода. Перенос битов в сложении, членство в очереди в BFS, частичные произведения в умножении. Эти признаки появляются во время длительных плато, а затем внезапно комбинируются для решения задачи.
Исследователи изучили внутренние представления в области двоичной арифметики (сложение, умножение), графовых алгоритмов (BFS, кратчайший путь, топологическая сортировка, MST) и оптимизации последовательностей (максимальный подпоследовательность, выбор активности).
Шесть задач показали четкие двухфазные переходы: длительная стагнация, за которой следуют резкие приросты производительности.
Эксперименты по абляции подтвердили причинно-следственную связь. Удаление признаков переноса из модели сложения на 64 бита вызвало снижение точности на 75,1%. Удаление членства в очереди в BFS снизило точность на 43,6%.
Алгоритмические задачи требуют совместной работы нескольких подпрограмм. Индивидуальные правильные компоненты не уменьшают потерю, пока все части не выровняются. Модели накапливают скрытые возможности под плоскими кривыми потерь.
Кажется, что кросс-энтропийная потеря является неполной диагностикой. Существенное внутреннее обучение может происходить, пока метрики кажутся стабильными. Это мотивирует использование более богатых инструментов мониторинга помимо кривых потерь.
🔖 (закладка)
Статья:

Топ
Рейтинг
Избранное

