Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Включена тренировка fp8 с улучшением на +4.3% по времени до "GPT-2", теперь это 2.91 часа. Также стоит отметить, что если вы используете цены на спотовые инстансы 8XH100, то этот репозиторий GPT-2 на самом деле стоит всего ~$20. Это захватывающе -
GPT-2 (7 лет назад): слишком опасно для выпуска.
GPT-2 (сегодня): новый MNIST! :)
Наверняка это может опуститься ниже 1 часа.
Несколько слов о fp8, это было немного сложнее, чем я ожидал, и мне потребовалось время, чтобы к этому прийти, и даже сейчас я не на 100% уверен, что это отличная идея из-за меньшей общей поддержки. На бумаге, fp8 на H100 дает 2X FLOPS, но на практике это гораздо меньше. Мы не на 100% зависим от вычислений в реальном процессе тренировки, есть дополнительные накладные расходы из-за добавленных масштабных преобразований, GEMM не достаточно велики на масштабе GPT-2, чтобы сделать накладные расходы явно оправданными, и, конечно, при более низкой точности качество каждого шага меньше. Для рецепта масштабирования по строкам кривые потерь fp8 и bf16 были довольно близки, но скорость была немного медленнее. Для масштабирования по тензорам кривые потерь разделились больше (т.е. каждый шаг имеет худшее качество), но теперь, по крайней мере, мы получаем ускорение (~7.3%). Вы можете наивно восстановить производительность, увеличив горизонт тренировки (вы тренируетесь больше шагов, но каждый шаг быстрее) и надеяться, что в итоге вы выйдете вперед. В этом случае и в целом, играя с этими рецептами и горизонтами тренировки немного, я пока добился ~5% ускорения. torchao в своей статье сообщает о 25% ускорении тренировки Llama3-8B fp8 (по сравнению с моими ~7.3% без учета возможностей), что ближе к тому, на что я изначально надеялся, хотя Llama3-8B - это гораздо большая модель. Это, вероятно, не конец саги fp8. Должно быть возможно улучшить вещи, выбирая и выбирая, на каких слоях именно применять это, и более осторожно подходя к числам по всей сети.
Топ
Рейтинг
Избранное
