«GHC zavádí flexibilní mechanismus, který při lehkém výpočtu komprimuje skryté stavy přes šířku páteře před jejich vložením do modulů zaměřené nebo zpětně předné a poté rozšiřuje výstupy modulů zpět na šířku přes šířku» šílená drzost
DailyPapers
DailyPapers17. 11. 12:11
ByteDance představuje Virtual Width Networks (VWN) pro efektivní škálování AI Tento nový rámec rozšiřuje prostor pro vkládání modelů pro širší reprezentace při zachování konstantní výpočetní kapacity. Zrychlí optimalizaci více než 2x pro next-token a 3x pro predikci next-2-tokenů!
Je to relativně levné
33,28K