Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Investigación interesante de Meta sobre las tendencias de escalado de hardware.
Más GPUs no siempre significa un entrenamiento más rápido.
El enfoque predeterminado para escalar el entrenamiento de LLM hoy en día sigue siendo lanzar más hardware al problema. Más aceleradores, más paralelismo, más computación.
Sin embargo, hay un límite que la mayoría de los equipos no ve hasta que lo alcanzan.
Esta nueva investigación demuestra que escalar el número total de aceleradores para el entrenamiento de modelos grandes rápidamente produce rendimientos decrecientes, incluso con hardware optimizado y estrategias de paralelización.
Los investigadores probaron modelos Llama-2 (de 1B a 70B parámetros) en 8 a 2,048 GPUs que abarcan hardware V100, A100 y H100. ¿Qué encontraron? Al escalar de 128 a 2,048 GPUs, el rendimiento disminuyó en un 37.22% mientras que el consumo de energía por GPU solo cayó un 5.87%.
El culpable es la sobrecarga de comunicación. A gran escala, las operaciones AllGather y ReduceScatter (dos primitivas de MPI) se convierten en cuellos de botella. La mayoría de la comunicación se expone, y la computación ya no puede ocultar la latencia.
Contrariamente a la intuición, las estrategias de paralelismo de modelos (paralelismo de tensores y de tuberías en grados 2-4) que anteriormente se pensaban que reducían la utilización del hardware, en realidad se vuelven preferibles a gran escala. Reducen la comunicación expuesta en comparación con el paralelismo de datos puro.
En hardware más nuevo, la utilización empeora, no mejora. La Utilización de FLOPS del modelo cayó del 59.67% en A100 al 40.77% en H100; los chips más rápidos exponen más sobrecarga de comunicación.
Por qué es importante: Agregar más GPUs proporciona un rendimiento marginal pobre por cada unidad adicional de potencia o hora de GPU. Los equipos que escalan a miles de aceleradores necesitan reconsiderar cuidadosamente las estrategias de paralelización en lugar de asumir que más hardware equivale a un entrenamiento más rápido.

Parte superior
Clasificación
Favoritos

