Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 8
Más allá del Promedio de Gradientes en Optimización Paralela: Mejora de la Robustez a través del Filtrado de Acuerdo de Gradientes
Recomendado por @FrancoisChauba1 después del artículo de ayer.
Propone el Filtrado de Acuerdo de Gradientes (GAF), donde se filtran los gradientes independientes que tienen grandes distancias coseno entre ellos en lugar de ser promediados. La implicación es que algunos gradientes calculados que pueden ayudar con la pérdida de entrenamiento son activamente perjudiciales para la generalización y deben ser descartados en lugar de utilizados.
Esto se presenta en términos de micro lotes en entrenamiento distribuido multi-GPU, pero la misma idea debería aplicarse a particiones de cualquier lote de entrenamiento.
Coincidentemente, estaba intentando algo similar: recortar gradientes de muestras de un buffer de repetición IID para que no contradigan el gradiente de la muestra de experiencia en línea actual. Aún no ha mostrado resultados positivos, pero tengo algunos ángulos más que probar.
La observación que motiva la teoría es que si entrenas un clasificador de imágenes con ruido completamente aleatorio y etiquetas aleatorias, tendrá un 100% de precisión en el entrenamiento y solo una precisión de validación por azar, claramente sobreajustado a los datos de entrenamiento. Notan que si miras la similitud coseno entre los gradientes de los minibatches en este modelo sobreajustado, siempre está por encima de 0.99, o esencialmente ortogonal. Si los gradientes ortogonales son un signo fiable de sobreajuste, tal vez puedas omitir minibatches con gradientes ortogonales y reducir el sobreajuste/aumentar la generalización.
Para el caso más simple de dos microbatches, esto se reduce a mantener o rechazar ambos en función de la similitud coseno, pero con más microbatches proponen comparar todos los microbatches con el primero y promediar juntos todos los que pasan la prueba.
Algunos de los comentarios sobre el tamaño del lote están en tensión con la tesis en #PaperADay 5 que afirma que los fracasos en la escalabilidad del tamaño del lote se deben a no ajustar beta2, pero las justificaciones no importan tanto como el rendimiento empírico. Probablemente intentaré algo como esto en los próximos días en nuestra base de código de RL.
Parte superior
Clasificación
Favoritos
