Hacks skalar inte. Matten gör det. DeepSeek bevisade det precis. De släppte en riktig hit för att avsluta 2025. "mHC: Manifold-begränsade hyper-kopplingar." Här är varför det är viktigt: När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet; signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt. ResNets löste detta 2016 med residual kopplingar: utgång = indata + vad lagret lärde sig Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager. Nyligen frågade forskare: Vad om vi hade flera motorvägar istället för en? Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar. Prestandaförbättringarna var verkliga. Men det fanns ett problem: Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger, vilket ledde till träningskollapser. De vanliga lösningarna: gradientklippning, noggrann initialisering och att hoppas att allt går bra. DeepSeek gick tillbaka till de första principerna: vilken matematisk begränsning skulle garantera stabilitet? Svaret låg gömt i en 59 år gammal algoritm (Sinkhorn-Knopp 1967) Det tvingar blandningsmatriser att vara dubbelt stokastiska, vilket innebär att rader och kolumner summeras till 1. Resultaten: - 3000x instabilitet → 1,6x - Stabilitet garanterad av matematik, inte tur - Endast 6,7 % extra utbildningskostnader Inga hack. Bara matte. Om du vill läsa mer har jag delat länken till artikeln i nästa tweet.
papper:
189