Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penelitian menarik dari Meta tentang tren penskalaan perangkat keras.
Lebih banyak GPU tidak selalu berarti pelatihan lebih cepat.
Pendekatan default untuk menskalakan pelatihan LLM saat ini tetap melemparkan lebih banyak perangkat keras pada masalah. Lebih banyak akselerator, lebih banyak paralelisme, lebih banyak komputasi.
Namun, ada langit-langit yang tidak dilihat sebagian besar tim sampai mereka mencapainya.
Penelitian baru ini menunjukkan bahwa menskalakan jumlah total akselerator untuk pelatihan model besar dengan cepat menghasilkan pengembalian yang berkurang, bahkan dengan perangkat keras dan strategi paralelisasi yang dioptimalkan.
Para peneliti menguji model Llama-2 (parameter 1B hingga 70B) di 8 hingga 2.048 GPU yang mencakup perangkat keras V100, A100, dan H100. Apa yang mereka temukan? Saat menskalakan dari 128 menjadi 2.048 GPU, throughput menurun sebesar 37,22% sementara penarikan daya per GPU hanya turun 5,87%.
Pelakunya adalah komunikasi di atas kepala. Pada skala besar, operasi AllGather dan ReduceScatter (dua primitif MPI) menjadi hambatan. Sebagian besar komunikasi menjadi terbuka, dan komputasi tidak dapat menyembunyikan latensi lagi.
Secara kontra-intuitif, strategi paralelisme model (paralelisme tensor dan pipa pada derajat 2-4) yang sebelumnya dianggap mengurangi pemanfaatan perangkat keras sebenarnya menjadi lebih disukai dalam skala besar. Mereka mengurangi komunikasi yang terekspos dibandingkan dengan paralelisme data murni.
Pada perangkat keras yang lebih baru, pemanfaatan menjadi lebih buruk, bukan lebih baik. Pemanfaatan Model FLOPS turun dari 59,67% pada A100 menjadi 40,77% pada H100; chip yang lebih cepat mengekspos lebih banyak overhead komunikasi.
Mengapa itu penting: Menambahkan lebih banyak GPU memberikan performa marjinal yang buruk per unit daya tambahan atau GPU-jam. Tim yang menskalakan ke ribuan akselerator perlu mempertimbangkan kembali strategi paralelisasi dengan hati-hati daripada mengasumsikan lebih banyak perangkat keras sama dengan pelatihan yang lebih cepat.

Teratas
Peringkat
Favorit

