Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Цікаве дослідження від Meta щодо тенденцій масштабування апаратного забезпечення.
Більше відеокарт не завжди означає швидше навчання.
Стандартний підхід до масштабування навчання LLM сьогодні залишається додатковим апаратним забезпеченням для вирішення проблеми. Більше акселераторів, більше паралелізму, більше обчислень.
Однак існує межа, яку більшість команд не бачать, поки не досягнуть її.
Це нове дослідження демонструє, що масштабування загальної кількості акселераторів для навчання великих моделей швидко дає зменшуючий прибуток, навіть при оптимізованому апаратному забезпеченні та стратегіях паралелізації.
Дослідники протестували моделі Llama-2 (параметри від 1B до 70B) на 8–2 048 GPU, що охоплюють апаратне забезпечення V100, A100 та H100. Що вони знайшли? При масштабуванні з 128 до 2 048 GPU пропускна здатність знизилася на 37,22%, а споживання енергії на GPU — лише на 5,87%.
Винуватець — це накладні витрати на комунікацію. На великих масштабах операції AllGather і ReduceScatter (дві примітиви MPI) стають вузькими місцями. Більшість комунікації стає відкритою, і обчислення більше не можуть приховати затримку.
Парадоксально, але стратегії паралелізму моделей (тензорний і конвеєрний паралелізм на ступенях 2-4), які раніше вважалися такими, що зменшують використання апаратного забезпечення, насправді стають кращими на масштабі. Вони зменшують відкриту комунікацію порівняно з чистим паралелізмом даних.
На новішому обладнанні використання погіршується, а не покращується. Використання FLOPS моделей знизилося з 59,67% на A100 до 40,77% на H100; Швидші чіпи створюють більше комунікаційних витрат.
Чому це важливо: Додавання більшої кількості GPU дає низьку граничну продуктивність на додаткову одиницю потужності або годину GPU. Командам, які масштабуються до тисяч акселераторів, потрібно ретельно переосмислити стратегії паралелізації, а не вважати, що більше обладнання означає швидше навчання.

Найкращі
Рейтинг
Вибране

