Увімкнено тренування fp8 для +4,3% покращення до "часу до GPT-2", тепер залишилося 2,91 години. Також варто зазначити, що якщо ви використовуєте спот-ціни 8XH100, цей GPT-2 репродукція насправді коштує лише ~$20. Тож це захопливо — GPT-2 (7 років тому): надто небезпечно для випуску. GPT-2 (сьогодні): новий MNIST! :) Напевно, це може тривати значно менше 1 години. Ще кілька слів на fp8 — це було трохи складніше, ніж я очікував, і мені знадобився час, щоб до нього дійти, і навіть зараз я не впевнений на 100%, чи це хороша ідея через меншу загальну підтримку. На папері fp8 на H100 — це вдвічі більше FLOPS, але на практиці значно менше. Ми не на 100% обмежені обчисленням у реальному навчальному запуску, є додаткові накладні витрати через додаткові масштабні конвертації, GEMM недостатньо великі на рівні GPT-2, щоб витрати були явно виправдані, і, звісно — при нижчій точності якість кожного кроку менша. Для рецепту масштабування по ряду криві втрат fp8 проти bf16 були досить близькими, але вони повільніші. Для тензорного масштабування криві втрат розділяються більше (тобто кожен крок має гіршу якість), але тепер ми принаймні отримуємо прискорення (~7,3%). Ви можете наївно відновити результати, піднявши горизонт тренувань (ви тренуєтеся на більше кроків, але кожен крок швидший) і сподіватися, що в результаті вийдете вперед. У цьому випадку, загалом, трохи погравшись із цими рецептами та тренувальними горизонтами, поки що я отримав ~5% прискорення. torchao у своїй статті повідомляє про прискорення тренування Llama3-8B FP8 на 25% (проти моїх ~7,3% без урахування можливостей), що ближче до того, на що я сподівався спочатку, хоча Llama3-8B — це значно більша модель. Ймовірно, це не кінець саги fp8. Має бути можливо покращити речі, обираючи точні шари для застосування і уважніше ставлячись до числових показників у мережі.