Skvělá zpráva od týmu Kimi: Pozornost a rezidua Zbytkové spojení umožnily hluboké transformátory nacvičit. Ale zároveň nutí nekontrolovaný růst skrytého stavu s hloubkou. Tato práce navrhuje čistší alternativu. Zavádí rezidua pozornosti, které nahrazují pevnou zbytkovou akumulaci softmax pozorností nad předchozími výstupy vrstev. Místo slepého sčítání všeho každá vrstva selektivně získává ty dřívější reprezentace, které skutečně potřebuje. Aby to bylo praktické ve velkém měřítku, přidali blokovou verzi, která vrstvy komprimuje do blokových souhrnů, čímž většinu zisků obnoví s minimálními systémovými režiemi. Proč na tom záleží? Zbytkové cesty se v moderních LLM téměř nezměnily, i když řídí, jak informace putují hloubkou. Tento článek ukazuje, že závislost míchání na obsahu zlepšuje škálovací zákony, odpovídá základní úrovni trénované s 1,25x vyšším výpočetním výkonem, zvyšuje GPQA-Diamond o +7,5 a HumanEval o +3,1, přičemž udržuje režie inference pod 2 %. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: