Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Se habilitó el entrenamiento fp8 para una mejora del +4.3% en el "tiempo hasta GPT-2", ahora reducido a 2.91 horas. También vale la pena mencionar que si utilizas los precios de instancias spot 8XH100, este repro de GPT-2 realmente solo cuesta alrededor de ~$20. Así que esto es emocionante -
GPT-2 (hace 7 años): demasiado peligroso para liberar.
GPT-2 (hoy): ¡nuevo MNIST! :)
Seguramente esto puede bajar bien por debajo de 1 hora.
Unas palabras más sobre fp8, fue un poco más complicado de lo que anticipé y me tomó un tiempo llegar a ello y, incluso ahora, no estoy 100% seguro de si es una gran idea debido a la menor compatibilidad general. En teoría, fp8 en H100 es 2X los FLOPS, pero en la práctica es mucho menos. No estamos 100% limitados por el cómputo en la ejecución de entrenamiento real, hay un costo adicional por las conversiones de escala añadidas, los GEMMs no son lo suficientemente grandes en la escala de GPT-2 como para que el costo adicional valga claramente la pena, y, por supuesto, a menor precisión, la calidad de cada paso es menor. Para la receta de escalado por filas, las curvas de pérdida de fp8 frente a bf16 estaban bastante cerca, pero el paso era netamente más lento. Para el escalado por tensores, las curvas de pérdida se separaron más (es decir, cada paso es de peor calidad), pero al menos ahora obtenemos una aceleración (~7.3%). Puedes recuperar ingenuamente el rendimiento aumentando el horizonte de entrenamiento (entrenas durante más pasos, pero cada paso es más rápido) y esperar que al final salgas adelante. En este caso y en general, jugando un poco con estas recetas y horizontes de entrenamiento, hasta ahora he terminado con una aceleración de ~5%. torchao en su artículo informa de una aceleración de entrenamiento fp8 de Llama3-8B del 25% (frente a mi ~7.3% sin tener en cuenta la capacidad), que está más cerca de lo que esperaba inicialmente, aunque Llama3-8B es un modelo mucho más grande. Probablemente no sea el final de la saga fp8. Debería ser posible mejorar las cosas eligiendo y seleccionando en qué capas aplicarlo exactamente, y siendo más cuidadoso con los números a través de la red.
Parte superior
Clasificación
Favoritos
