#PaperADay 8 За пределами градиентного усреднения в параллельной оптимизации: улучшенная устойчивость через фильтрацию градиентного согласия Рекомендовано @FrancoisChauba1 после вчерашней статьи. Предлагает фильтрацию градиентного согласия (GAF), при которой независимые градиенты с большими косинусными расстояниями между ними отфильтровываются, а не усредняются. Это подразумевает, что некоторые вычисленные градиенты, которые могут помочь с потерей при обучении, активно вредны для обобщения и должны быть отброшены, а не использованы. Это представлено в терминах микро-пакетов в распределенном обучении на нескольких GPU, но та же идея должна применяться к частям любого обучающего пакета. Я случайно как раз пробовал что-то подобное – обрезку градиентов из образцов IID буфера воспроизведения, чтобы они не противоречили градиенту из текущего образца онлайн-опыта. Пока что это не дало положительных результатов, но у меня есть еще несколько подходов, которые стоит попробовать. Наблюдение, которое мотивирует теорию, заключается в том, что если вы обучаете классификатор изображений на совершенно случайном шуме и случайных метках, он будет иметь 100% точность на обучении и только случайную точность на валидации, явно переобучаясь на обучающих данных. Они отмечают, что если посмотреть на косинусное сходство между градиентами мини-пакетов на этой модели с переобучением, оно всегда выше 0.99, или по сути ортогонально. Если ортогональные градиенты являются надежным признаком переобучения, возможно, вы можете пропустить мини-пакеты с ортогональными градиентами и уменьшить переобучение / увеличить обобщение. Для самого простого случая из двух микро-пакетов это сводится к тому, чтобы либо сохранить, либо отклонить оба на основе косинусного сходства, но с большим количеством микро-пакетов они предлагают сравнивать все микро-пакеты с первым и усреднять все, которые проходят тест.