Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Představujeme rezidua pozornosti: Přehodnocení agregace podle hloubky.
Reziduální spojení dlouho spoléhala na pevné, rovnoměrné akumulace. Inspirováni dualitou času a hloubky zavádíme rezidua pozornosti, které nahrazují standardní hloubkové opakování naučenou, na vstupu závislou pozornost přes předchozí vrstvy.
🔹 Umožňuje sítím selektivně získávat minulé reprezentace, což přirozeně snižuje ředění a růst skrytých stavů.
🔹 Zavádí Block AttnRes, který rozděluje vrstvy do komprimovaných bloků, aby bylo praktické přecházet pozornost napříč vrstvami ve větším měřítku.
🔹 Slouží jako efektivní náhrada drop-in, která ukazuje výpočetní výhodu 1,25x při zanedbatelné (<2 %) režii latence inference.
🔹 Ověřeno na Kimi Linear architektuře (celkem 48B, aktivované 3B parametrů), což přináší konzistentní zvýšení výkonu v downstreamu.
🔗Úplná zpráva:

Experimenty se škálovacím zákonem odhalují konzistentní výpočetní výhodu 1,25× napříč různými velikostmi modelů.

Analýza tréninkové dynamiky ukazuje, jak AttnRes přirozeně zmírňuje růst velikosti skrytého stavu a zajišťuje rovnoměrnější rozdělení gradientů napříč hloubkou.

88
Top
Hodnocení
Oblíbené
