DeepSeek har precis löst ett av AI:s äldsta problem. (med hjälp av en 60 år gammal algoritm) Här är historien: När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet. Signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt. ResNets löste detta 2016 med residual kopplingar: utgång = indata + vad lagret lärde sig Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager. Nyligen frågade forskare: tänk om vi hade flera motorvägar istället för en? Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar. Prestandaförbättringarna var verkliga. Men det fanns ett problem: Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger. Träningen kollapsar. De vanliga fixarna? Gradientklippning. Försiktig initiering. Hoppas det ordnar sig. Det här är hack. Och hacks skalar inte. DeepSeek gick tillbaka till grundprinciperna. Vilken matematisk begränsning skulle garantera stabilitet? Svaret fanns i en artikel från 1967: Sinkhorn-Knopp-algoritmen. Det tvingar blandningsmatriser att vara "dubbelt stokastiska", där rader och kolumner summeras till 1. Resultaten: - 3000x instabilitet reducerad till 1,6x - Stabilitet garanterad av matematik, inte tur - Endast 6,7 % extra utbildningskostnader Inga hack. Bara matte. Jag har delat länken till artikeln i nästa tweet.
papper:
293