Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 8
За пределами градиентного усреднения в параллельной оптимизации: улучшенная устойчивость через фильтрацию градиентного согласия
Рекомендовано @FrancoisChauba1 после вчерашней статьи.
Предлагает фильтрацию градиентного согласия (GAF), при которой независимые градиенты с большими косинусными расстояниями между ними отфильтровываются, а не усредняются. Это подразумевает, что некоторые вычисленные градиенты, которые могут помочь с потерей при обучении, активно вредны для обобщения и должны быть отброшены, а не использованы.
Это представлено в терминах микро-пакетов в распределенном обучении на нескольких GPU, но та же идея должна применяться к частям любого обучающего пакета.
Я случайно как раз пробовал что-то подобное – обрезку градиентов из образцов IID буфера воспроизведения, чтобы они не противоречили градиенту из текущего образца онлайн-опыта. Пока что это не дало положительных результатов, но у меня есть еще несколько подходов, которые стоит попробовать.
Наблюдение, которое мотивирует теорию, заключается в том, что если вы обучаете классификатор изображений на совершенно случайном шуме и случайных метках, он будет иметь 100% точность на обучении и только случайную точность на валидации, явно переобучаясь на обучающих данных. Они отмечают, что если посмотреть на косинусное сходство между градиентами мини-пакетов на этой модели с переобучением, оно всегда выше 0.99, или по сути ортогонально. Если ортогональные градиенты являются надежным признаком переобучения, возможно, вы можете пропустить мини-пакеты с ортогональными градиентами и уменьшить переобучение / увеличить обобщение.
Для самого простого случая из двух микро-пакетов это сводится к тому, чтобы либо сохранить, либо отклонить оба на основе косинусного сходства, но с большим количеством микро-пакетов они предлагают сравнивать все микро-пакеты с первым и усреднять все, которые проходят тест.
Топ
Рейтинг
Избранное
