Investigación interesante de Meta sobre las tendencias de escalado de hardware. Más GPUs no siempre significa entrenamiento más rápido. El enfoque por defecto para escalar el entrenamiento de LLM hoy en día sigue siendo lanzando más hardware al problema. Más aceleradores, más paralelismo, más cálculo. Sin embargo, hay un techo que la mayoría de los equipos no ven hasta que lo alcanzan. Esta nueva investigación demuestra que escalar el número total de aceleradores para entrenamiento de modelos grandes produce rápidamente rendimientos decrecientes, incluso con hardware optimizado y estrategias de paralelización. Los investigadores probaron modelos Llama-2 (parámetros 1B a 70B) en 8 a 2.048 GPUs que abarcan hardware V100, A100 y H100. ¿Qué encontraron? Al escalar de 128 a 2.048 GPUs, el rendimiento disminuyó un 37,22%, mientras que el consumo de energía por GPU solo bajó un 5,87%. El culpable es la sobrecarga de comunicación. A gran escala, las operaciones AllGather y ReduceScatter (dos primitivas MPI) se convierten en cuellos de botella. La mayoría de la comunicación queda expuesta y la computación ya no puede ocultar la latencia. De forma contraintuitiva, las estrategias de paralelismo de modelos (paralelismo de tensor y pipeline en grados 2-4) que antes se pensaba que reducían la utilización del hardware, en realidad se vuelven preferibles a gran escala. Reducen la comunicación expuesta en comparación con el paralelismo puro de datos. En hardware más nuevo, la utilización empeora, no mejora. La utilización de modelos FLOPS cayó del 59,67% en el A100 al 40,77% en el H100; Los chips más rápidos exponen más sobrecarga de comunicación. Por qué importa: Añadir más GPUs proporciona un rendimiento marginal pobre por unidad adicional de potencia o GPU-hora. Los equipos que escalan hasta miles de aceleradores deben reconsiderar cuidadosamente las estrategias de paralelización en lugar de asumir que más hardware equivale a un entrenamiento más rápido.