Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta'dan donanım ölçeklendirme trendleri üzerine ilginç bir araştırma.
Daha fazla GPU her zaman daha hızlı eğitim anlamına gelmez.
Bugün LLM eğitimini ölçeklendirmek için varsayılan yaklaşım, soruna daha fazla donanım atmakta kalıyor. Daha fazla hızlandırıcı, daha fazla paralellik, daha fazla hesaplama.
Ancak, çoğu takımın onu vurana kadar fark etmediği bir tavan var.
Bu yeni araştırma, büyük model eğitimi için toplam hızlandırıcı sayısının ölçeklendirilmesinin, optimize edilmiş donanım ve paralelleştirme stratejileriyle bile hızla azalan getiri sağladığını göstermektedir.
Araştırmacılar, V100, A100 ve H100 donanımlarını kapsayan 8 ila 2.048 GPU üzerinde Llama-2 modellerini (1B'den 70B'ye kadar parametreler) test ettiler. Ne buldular? 128 GPU'dan 2.048 GPU'ya ölçeklendiğinde, veri verimliliği %37,22 azalırken, GPU başına güç tüketimi sadece %5,87 azaldı.
Suçlu iletişim giderleridir. Büyük ölçeklerde AllGather ve ReduceScatter (iki MPI ilkeli) işlemleri darboğaz haline gelir. İletişimin çoğu açığa çıkıyor ve hesaplama artık gecikmeyi gizleyemiyor.
Sezgi dışı olarak, daha önce donanım kullanımını azalttığı düşünülen model paralelliği stratejileri (2-4. derecelerde tensör ve boru hattı paralelliği) ölçekte tercih edilir. Saf veri paralelliğine kıyasla açık iletişimi azaltırlar.
Yeni donanımlarda kullanım daha kötü oluyor, iyileşmiyor. Model FLOPS Kullanımı A100'de %59,67'den H100'de %40,77'ye düştü; Daha hızlı çipler daha fazla iletişim yükü oluşturur.
Neden önemli: Daha fazla GPU eklemek, ek güç birimi veya GPU-saat başına düşük marjinal performans sağlar. Binlerce hızlandırıcıya ölçeklenen ekipler, daha fazla donanımın daha hızlı eğitim anlamına geldiğini varsaymak yerine paralelleştirme stratejilerini dikkatlice yeniden değerlendirmeleri gerekir.

En İyiler
Sıralama
Takip Listesi

