Snelle doorlezing van Deepseek's nieuwe paper over Manifold-Constrained Hyper-Connections: - Je wilt de residu-grootte verhogen van 1×C naar n×C (n streams in plaats van 1). Eerdere residu-update: x' = x + layer(x). Maak de x n×C, en gebruik x' = Ax + B layer(Cx) in plaats daarvan. A, B, C zijn allemaal afhankelijk van x en zijn kleine matrices (n×n, n×1, n×1). A lijkt de meeste impact te hebben. Dit zijn Hyper-Connections (HC). - HC heeft hetzelfde probleem als andere residu-modificatieschema's - uiteindelijk explodeert of verdwijnt het product van de geleerde A-matrices (langs het identiteitspad). - Om dit op te lossen, projecteren ze de A-matrices op de Birkhoff-polytoop (simpele woorden: transformeer het, na exp om elementen positief te maken, naar een matrix waarvan de rij- en kolomsommen 1 worden - een zogenaamde dubbelstochastische matrix). Dit heeft mooie eigenschappen - producten van deze soorten matrices hebben nog steeds rij- en kolomsom 1 (door sluiting), zodat dingen niet exploderen (spectrale grens), en de invariant is dat de som van gewichten over streams 1 is. Voor n = 1 wordt dit de standaard residu-stream, wat mooi is. Hun transformatietechniek is eenvoudig - deel om en om rijen en kolommen door respectievelijk rij- en kolomsommen voor 20 iteraties (convergeert naar onze gewenste matrix naarmate de iteraties naar oneindig gaan). Ze vinden dat 20 goed genoeg is voor zowel de voorwaartse als achterwaartse doorgang (over 60 lagen, maximale achterwaartse winst is 1.6 in plaats van 3000 van de gebruikelijke HC, en 1.6 is niet erg ver van 1). - Het samenstellen van deze matrices (convexe omhulsel van alle permutatiematrices) leidt tot informatie-mixing naarmate de laagindex toeneemt, wat een mooi stuk intuïtie is en ook heel duidelijk wordt getoond in hun samengestelde matrix voor 60 lagen. Ik geloof dat we in het algemeen een gewogen som van residupaden krijgen (denkend aan gradiënten), waarbij logisch groepeerbare paden gewichten hebben die optellen tot 1. Best principiële aanpak IMO, maakt ook de winsten (voorwaarts en achterwaarts) zeer stabiel. - Interessant om op te merken - veel "pooling"-achtige mixing in de eerste helft vergeleken met de tweede helft van de lagen. De tweede helft van de lagen behandelt verschillende kanalen preciezer/scherper dan de eerste helft, vrij intuïtief. - Ze veranderen ook de parameterisatie van B en C (sigmoid in plaats van tanh, om waarschijnlijk het veranderen van tekens te vermijden, en een factor van 2 voor B, geloof ik om de gemiddelde residu-multiplicator te behouden, C heeft dit niet nodig omdat de invoer toch al voor-genormeerd is). - Coole systeemoptimalisaties om deze operatie snel te maken - ze doen kernelfusie, herberekening in de mHC achterwaartse doorgang, en zelfs modificeren ze DualPipe (hun implementatie van pijplijnparallelisme). - Slechts 6,7% overhead in training wanneer n = 4, verlies gaat omlaag met 0,02 en verbeteringen over benchmarks.