«GHC introduce un meccanismo flessibile che, con un calcolo leggero, comprime gli Stati Nascosti a Larghezza Superiore alla larghezza del backbone prima di alimentarli nei moduli di attenzione o feed-forward, e poi espande nuovamente le uscite del modulo alla Larghezza Superiore» crazy chutzpah
DailyPapers
DailyPapers17 nov, 12:11
ByteDance introduce le Reti di Larghezza Virtuale (VWN) per una scalabilità AI efficiente Questo nuovo framework espande lo spazio di embedding del modello per rappresentazioni più ampie mantenendo costante il calcolo. Accelera l'ottimizzazione di oltre 2 volte per la previsione del prossimo token e di 3 volte per la previsione del prossimo-2-token!
è relativamente economico
33,46K