Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Introducendo 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Ripensare l'aggregazione depth-wise.
Le connessioni residue si sono a lungo basate su un accumulo fisso e uniforme. Ispirati dalla dualità del tempo e della profondità, introduciamo gli Attention Residuals, sostituendo la ricorrenza depth-wise standard con un'attenzione appresa, dipendente dall'input, sui livelli precedenti.
🔹 Consente alle reti di recuperare selettivamente le rappresentazioni passate, mitigando naturalmente la diluizione e la crescita dello stato nascosto.
🔹 Introduce Block AttnRes, suddividendo i livelli in blocchi compressi per rendere l'attenzione inter-livello pratica su larga scala.
🔹 Funziona come un sostituto efficiente, dimostrando un vantaggio computazionale di 1.25x con un sovraccarico di latenza di inferenza trascurabile (<2%).
🔹 Validato sull'architettura Kimi Linear (48B totale, 3B parametri attivati), fornendo guadagni di prestazioni costanti a valle.
🔗Rapporto completo:

Gli esperimenti sulla legge di scalabilità rivelano un vantaggio di calcolo consistente di 1,25× attraverso diverse dimensioni del modello.

L'analisi delle dinamiche di addestramento dimostra come AttnRes mitighi naturalmente la crescita della magnitudine dello stato nascosto e produca una distribuzione del gradiente più uniforme attraverso la profondità.

87
Principali
Ranking
Preferiti
