Představujeme rezidua pozornosti: Přehodnocení agregace podle hloubky. Reziduální spojení dlouho spoléhala na pevné, rovnoměrné akumulace. Inspirováni dualitou času a hloubky zavádíme rezidua pozornosti, které nahrazují standardní hloubkové opakování naučenou, na vstupu závislou pozornost přes předchozí vrstvy. 🔹 Umožňuje sítím selektivně získávat minulé reprezentace, což přirozeně snižuje ředění a růst skrytých stavů. 🔹 Zavádí Block AttnRes, který rozděluje vrstvy do komprimovaných bloků, aby bylo praktické přecházet pozornost napříč vrstvami ve větším měřítku. 🔹 Slouží jako efektivní náhrada drop-in, která ukazuje výpočetní výhodu 1,25x při zanedbatelné (<2 %) režii latence inference. 🔹 Ověřeno na Kimi Linear architektuře (celkem 48B, aktivované 3B parametrů), což přináší konzistentní zvýšení výkonu v downstreamu. 🔗Úplná zpráva:
Experimenty se škálovacím zákonem odhalují konzistentní výpočetní výhodu 1,25× napříč různými velikostmi modelů.
Analýza tréninkové dynamiky ukazuje, jak AttnRes přirozeně zmírňuje růst velikosti skrytého stavu a zajišťuje rovnoměrnější rozdělení gradientů napříč hloubkou.
88