Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Activé el entrenamiento FP8 con una mejora del +4,3% a "tiempo hasta GPT-2", bajando a 2,91 horas ahora. También vale la pena señalar que si usas precios de instancias spot de 8XH100, esta reproducción GPT-2 realmente cuesta solo ~$20. Así que esto es emocionante -
GPT-2 (hace 7 años): demasiado peligroso para liberar.
GPT-2 (hoy): ¡nuevo MNIST! :)
Seguro que esto puede durar mucho menos de 1 hora.
Unas palabras más sobre fp8, fue un poco más complicado de lo que esperaba y me costó un tiempo alcanzarlo, y aún ahora no estoy 100% seguro de que sea una buena idea por el menor apoyo general que tiene para ello. Sobre el papel, FP8 en H100 es el doble de FLOPS, pero en la práctica es mucho menos. No estamos 100% limitados al cálculo en la ejecución de entrenamiento real, hay sobrecarga extra por conversiones de escala adicionales, los GEMMs no son lo suficientemente grandes a escala GPT-2 como para que la sobrecarga merezca claramente la pena, y por supuesto, a menor precisión la calidad de cada paso es menor. Para la receta de escalado por filas, las curvas de pérdida fp8 vs bf16 estaban bastante cercanas, pero la velocidad neta era más lenta. Para la escala tensorial, las curvas de pérdida se separaron más (es decir, cada paso es de peor calidad), pero ahora al menos obtenemos un aumento de velocidad (~7,3%). Puedes recuperar ingenuamente el rendimiento adelantando el horizonte de entrenamiento (entrenas para más pasos, pero cada paso es más rápido) y esperar que en la portería salgas ganando. En este caso y en general, jugando un poco con estas recetas y horizontes de entrenamiento, hasta ahora he acabado con un ~5% de aceleración. Torchao en su artículo informa que la Llama3-8B FP8 tiene un aumento de velocidad de entrenamiento del 25% (frente a mi ~7,3% sin tener en cuenta la capacidad), que está más cerca de lo que esperaba inicialmente, aunque el Llama3-8B es un modelo mucho más grande. Probablemente esto no sea el final de la saga FP8. Debería ser posible mejorar las cosas eligiendo exactamente en qué capas aplicarlo, y siendo más cuidadoso con los números en toda la red.
Populares
Ranking
Favoritas
