8 #PaperADay Más allá del promediado de gradientes en la optimización paralela: mejora de la robustez mediante filtrado de concordancia de gradientes Recomendado por @FrancoisChauba1 después del artículo de ayer. Propone el Filtrado de Acuerdo de Gradientes (GAF), donde gradientes independientes que tienen grandes distancias coseno entre ellos se filtran en lugar de promediarse hacia dentro. La implicación es que algunos gradientes calculados que pueden ayudar a reducir la pérdida de entrenamiento son activamente perjudiciales para la generalización y deberían descartarse en lugar de usarse. Esto se presenta en términos de microlotes en entrenamiento distribuido multi-GPU, pero la misma idea debería aplicarse a las particiones de cualquier lote de entrenamiento. Casualmente estaba probando algo similar: recortar gradientes de muestras de búfer de reproducción IID para que no contradigan el degradado de la experiencia online actual. Aún no ha dado resultados positivos, pero tengo algunos ángulos más para probar. La observación que motiva la teoría es que si entrenas un clasificador de imágenes con ruido completamente aleatorio y etiquetas aleatorias, tendrá una precisión del 100% del entrenamiento y solo una precisión de validación aleatoria del azar, claramente sobreajustada a los datos de entrenamiento. Señalan que si observas la similitud coseno entre los gradientes de minilotes en este modelo de sobreajuste, siempre está por encima de 0,99, o esencialmente ortogonal. Si los gradientes ortogonales son un signo fiable de sobreajuste, quizá puedas saltarte los minbatches con gradientes ortogonales y reducir el sobreajuste o aumentar la generalización. En el caso más simple de dos microlotes, esto se reduce a mantener o rechazar ambos basándose en la similitud del coseno, pero con más microlotes proponen comparar todos los microlotes con el primero y promediar todos los que superan la prueba. Algunos de los comentarios sobre el tamaño del lote están en tensión con la tesis del #PaperADay 5 que afirma que los fallos en el escalado del tamaño del lote se deben a no ajustar beta2, pero las justificaciones no importan tanto como el rendimiento empírico. Probablemente intente algo así en los próximos días en nuestra base de código de RL.