«GHC, hafif hesaplama ile Genişlik Üzeri Gizli Durumları omurga genişliğine sıkıştırıp sonra dikkat veya ileri besleme modüllerine besleyen ve modül çıktılarını tekrar Over -Width'e genişleten esnek bir mekanizma sunar» Çılgın bir cesaret
DailyPapers
DailyPapers17 Kas 2025
ByteDance, verimli yapay zeka ölçeklendirmesi için Sanal Genişlik Ağları (VWN) tanıtıyor Bu yeni çerçeve, daha geniş temsiller için model göme alanını genişletirken hesaplamayı sabit tutar. Next-token için optimizasyonu 2 katından fazla, Next-2 token tahmini için ise 3 kat hızlandırıyor!
Oldukça ucuz
33,47K