Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
9-LETNIA DROGA DO HYPER-POŁĄCZEŃ DEEPSEEK
Szczęśliwego Nowego Roku! Spędziłem ostatnie dwa dni w głębokim tunelu dotyczącego początków dokumentu DeepSeek na temat ograniczonych hiper-połączeń Manifold. To trochę wyszło znikąd, więc zagłębiłem się w starsze prace, na których to się opiera.
-> Wszystko zaczyna się od ResNetów w 2016 roku (formuła x_{l+1} = x_l + F(x_l)). He i in. pokazali, że tożsamościowy składnik przechodzący przez niezmieniony jest tym, co sprawia, że głębokie sieci są w ogóle trenowalne.
-> DenseNet i FractalNet (2016-17) próbowały połączyć każdą warstwę z każdą inną warstwą. Działało lepiej, ale połączenia były stałe, więc sieć niczego się nie nauczyła.
-> DenseFormer w zeszłym roku sprawił, że wagi uśredniające stały się uczące. Otrzymujesz ważoną kombinację wszystkich wyjść z poprzednich warstw (ale wciąż tylko jeden strumień resztkowy).
-> Hiper-Połączenia z września 2024 poszły w innym kierunku. Zamiast więcej połączeń, poszerzają strumień. Rozszerzają z C do n×C wymiarów, dodają uczące się macierze mieszające między n strumieniami.
-> Tutaj robi się interesująco! Kiedy układasz warstwy, te macierze mieszające mnożą się razem. Jeśli są nieograniczone, iloczyn może eksplodować. DeepSeek znalazł magnitudy zysku rzędu 3000x w swoich modelach 27B. Cały sens mapowania tożsamości zniknął.
mHC naprawia to, ograniczając macierze mieszające do bycia podwójnie stochastycznymi za pomocą iteracji Sinkhorna-Knoppa. Te macierze mają normę spektralną <= 1 i pozostają podwójnie stochastyczne, gdy są mnożone razem. Zysk spada do ~1.6x.
Jest ładne połączenie z dokumentem Sinkformers z 2021 roku, który zastosował Sinkhorna do macierzy uwagi. mHC robi to samo, ale dla połączeń resztkowych!
Ostateczny wynik = stabilne szkolenie, przewyższa zarówno bazowy, jak i niestabilny HC, 6.7% narzutu po optymalizacji systemów!!!
Połączenie resztkowe było praktycznie nietknięte od 2016 roku. To może być początek czegoś wielkiego LFG

Najlepsze
Ranking
Ulubione
