Raport od zespołu Kimi: Residuals Attention Połączenia residualne sprawiły, że głębokie Transformery stały się trenowalne. Jednak wymuszają one również niekontrolowany wzrost stanu ukrytego wraz z głębokością. Ta praca proponuje czystsze rozwiązanie. Wprowadza Residuals Attention, które zastępują stałą akumulację residualną uwagą softmax nad wyjściami poprzednich warstw. Zamiast ślepo sumować wszystko, każda warstwa selektywnie pobiera wcześniejsze reprezentacje, których rzeczywiście potrzebuje. Aby to było praktyczne na dużą skalę, dodają wersję blokową, która kompresuje warstwy w podsumowania blokowe, odzyskując większość zysków przy minimalnym obciążeniu systemu. Dlaczego to ma znaczenie? Ścieżki residualne ledwo się zmieniły w nowoczesnych LLM, mimo że rządzą tym, jak informacje poruszają się w głębokości. Ten artykuł pokazuje, że uzależnienie mieszania od treści poprawia prawa skalowania, odpowiada bazowemu modelowi trenowanemu z 1,25x większym obliczeniem, zwiększa GPQA-Diamond o +7,5 i HumanEval o +3,1, przy jednoczesnym utrzymaniu obciążenia wnioskowania poniżej 2%. Artykuł: Naucz się budować skuteczne agenty AI w naszej akademii: