「GHCは、軽量計算でオーバー-幅隠れ状態をバックボーン幅に圧縮し、それを注意モジュールやフィードフォワードモジュールに入力し、さらにモジュール出力をオーバー-幅に戻す柔軟なメカニズムを導入しています。」 狂った厚かましい
DailyPapers
DailyPapers11月17日 12:11
ByteDance introduces Virtual Width Networks (VWN) for efficient AI scaling This new framework expands model embedding space for wider representations while keeping compute constant. It accelerates optimization by over 2x for next-token and 3x for next-2-token prediction!
比較的安いです
33.46K