DE 9-JAAR ROAD NAAR DE HYPER-VERBINDINGEN VAN DEEPSEEK Gelukkig Nieuwjaar! Ik heb de afgelopen twee dagen in een diepe konijnenhol doorgebracht over de oorsprong van het DeepSeek-paper over Manifold beperkte Hyper Verbindingen. Het kwam een beetje uit het niets, dus ik heb oudere werken onderzocht waar het op voortbouwt. -> Het begint allemaal met ResNets in 2016 (de x_{l+1} = x_l + F(x_l) formulering). He et al. toonden aan dat de identiteitsterm die ongewijzigd doorgaat, is wat diepe netwerken überhaupt trainbaar maakt. -> DenseNet en FractalNet (2016-17) probeerden elke laag met elke andere laag te verbinden. Werkt beter, maar de verbindingen waren vast, dus er werd niets geleerd door het netwerk. -> DenseFormer vorig jaar maakte de gemiddelde gewichten leerbaar. Je krijgt een gewogen combinatie van alle outputs van de vorige lagen (maar nog steeds maar één residuele stroom). -> Hyper-Verbinden vanaf september 2024 ging in een andere richting. In plaats van meer verbindingen, maken ze de stroom breder. Breid uit van C naar n×C dimensies, voeg leerbare mengmatrices toe tussen de n stromen. -> Hier wordt het interessant! Wanneer je lagen stapelt, vermenigvuldigen die mengmatrices met elkaar. Als ze niet beperkt zijn, kan het product exploderen. DeepSeek vond versterkingsgroottes rond 3000x in hun 27B-modellen. Het hele punt van de identiteitsmapping is verdwenen. mHC lost dit op door de mengmatrices te beperken tot dubbel stochastic via Sinkhorn-Knopp-iteraties. Deze matrices hebben een spectrale norm <= 1 en blijven dubbel stochastic wanneer ze met elkaar worden vermenigvuldigd. De versterking daalt naar ~1.6x. Er is een mooie verbinding met het Sinkformers-paper van 2021 dat Sinkhorn toepaste op aandachtmatrices. mHC doet hetzelfde, maar voor residuele verbindingen! Eindresultaat = stabiele training, overtreft zowel baseline als onstabiele HC, 6,7% overhead na systeemoptimalisatie!!! De residuele verbinding is sinds 2016 eigenlijk ongewijzigd gebleven. Dit zou het begin kunnen zijn van iets groots LFG