Introducendo 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Ripensare l'aggregazione depth-wise. Le connessioni residue si sono a lungo basate su un accumulo fisso e uniforme. Ispirati dalla dualità del tempo e della profondità, introduciamo gli Attention Residuals, sostituendo la ricorrenza depth-wise standard con un'attenzione appresa, dipendente dall'input, sui livelli precedenti. 🔹 Consente alle reti di recuperare selettivamente le rappresentazioni passate, mitigando naturalmente la diluizione e la crescita dello stato nascosto. 🔹 Introduce Block AttnRes, suddividendo i livelli in blocchi compressi per rendere l'attenzione inter-livello pratica su larga scala. 🔹 Funziona come un sostituto efficiente, dimostrando un vantaggio computazionale di 1.25x con un sovraccarico di latenza di inferenza trascurabile (<2%). 🔹 Validato sull'architettura Kimi Linear (48B totale, 3B parametri attivati), fornendo guadagni di prestazioni costanti a valle. 🔗Rapporto completo:
Gli esperimenti sulla legge di scalabilità rivelano un vantaggio di calcolo consistente di 1,25× attraverso diverse dimensioni del modello.
L'analisi delle dinamiche di addestramento dimostra come AttnRes mitighi naturalmente la crescita della magnitudine dello stato nascosto e produca una distribuzione del gradiente più uniforme attraverso la profondità.
87