9-LETNIA DROGA DO HYPER-POŁĄCZEŃ DEEPSEEK Szczęśliwego Nowego Roku! Spędziłem ostatnie dwa dni w głębokim tunelu dotyczącego początków dokumentu DeepSeek na temat ograniczonych hiper-połączeń Manifold. To trochę wyszło znikąd, więc zagłębiłem się w starsze prace, na których to się opiera. -> Wszystko zaczyna się od ResNetów w 2016 roku (formuła x_{l+1} = x_l + F(x_l)). He i in. pokazali, że tożsamościowy składnik przechodzący przez niezmieniony jest tym, co sprawia, że głębokie sieci są w ogóle trenowalne. -> DenseNet i FractalNet (2016-17) próbowały połączyć każdą warstwę z każdą inną warstwą. Działało lepiej, ale połączenia były stałe, więc sieć niczego się nie nauczyła. -> DenseFormer w zeszłym roku sprawił, że wagi uśredniające stały się uczące. Otrzymujesz ważoną kombinację wszystkich wyjść z poprzednich warstw (ale wciąż tylko jeden strumień resztkowy). -> Hiper-Połączenia z września 2024 poszły w innym kierunku. Zamiast więcej połączeń, poszerzają strumień. Rozszerzają z C do n×C wymiarów, dodają uczące się macierze mieszające między n strumieniami. -> Tutaj robi się interesująco! Kiedy układasz warstwy, te macierze mieszające mnożą się razem. Jeśli są nieograniczone, iloczyn może eksplodować. DeepSeek znalazł magnitudy zysku rzędu 3000x w swoich modelach 27B. Cały sens mapowania tożsamości zniknął. mHC naprawia to, ograniczając macierze mieszające do bycia podwójnie stochastycznymi za pomocą iteracji Sinkhorna-Knoppa. Te macierze mają normę spektralną <= 1 i pozostają podwójnie stochastyczne, gdy są mnożone razem. Zysk spada do ~1.6x. Jest ładne połączenie z dokumentem Sinkformers z 2021 roku, który zastosował Sinkhorna do macierzy uwagi. mHC robi to samo, ale dla połączeń resztkowych! Ostateczny wynik = stabilne szkolenie, przewyższa zarówno bazowy, jak i niestabilny HC, 6.7% narzutu po optymalizacji systemów!!! Połączenie resztkowe było praktycznie nietknięte od 2016 roku. To może być początek czegoś wielkiego LFG