Тихое обучение признаков в трансформерах Это одна из самых увлекательных статей, которые я прочитал на этой неделе. Позвольте мне объяснить: В ней утверждается, что кривые потерь могут вводить в заблуждение относительно того, что модель изучает. Стандартный подход к мониторингу обучения нейронных сетей основывается на потере как основном показателе прогресса. Если потеря стабильна, ничего не происходит. Если потеря снижается, обучение происходит. Но это предположение не работает в алгоритмических задачах. Это новое исследование обучало трансформеры на десяти основополагающих алгоритмических задачах и обнаружило "тихие признаки": внутренние представления, которые развиваются, пока потеря кажется стабильной. Они обнаружили, что модели изучают промежуточные вычислительные шаги задолго до того, как эти шаги улучшают производительность вывода. Перенос битов в сложении, членство в очереди в BFS, частичные произведения в умножении. Эти признаки появляются во время длительных плато, а затем внезапно комбинируются для решения задачи. Исследователи изучили внутренние представления в области двоичной арифметики (сложение, умножение), графовых алгоритмов (BFS, кратчайший путь, топологическая сортировка, MST) и оптимизации последовательностей (максимальный подпоследовательность, выбор активности). Шесть задач показали четкие двухфазные переходы: длительная стагнация, за которой следуют резкие приросты производительности. Эксперименты по абляции подтвердили причинно-следственную связь. Удаление признаков переноса из модели сложения на 64 бита вызвало снижение точности на 75,1%. Удаление членства в очереди в BFS снизило точность на 43,6%. Алгоритмические задачи требуют совместной работы нескольких подпрограмм. Индивидуальные правильные компоненты не уменьшают потерю, пока все части не выровняются. Модели накапливают скрытые возможности под плоскими кривыми потерь. Кажется, что кросс-энтропийная потеря является неполной диагностикой. Существенное внутреннее обучение может происходить, пока метрики кажутся стабильными. Это мотивирует использование более богатых инструментов мониторинга помимо кривых потерь. 🔖 (закладка) Статья: