Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hacks skalar inte. Matten gör det.
DeepSeek bevisade det precis.
De släppte en riktig hit för att avsluta 2025.
"mHC: Manifold-begränsade hyper-kopplingar."
Här är varför det är viktigt:
När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet; signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt.
ResNets löste detta 2016 med residual kopplingar:
utgång = indata + vad lagret lärde sig
Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager.
Nyligen frågade forskare: Vad om vi hade flera motorvägar istället för en?
Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar.
Prestandaförbättringarna var verkliga. Men det fanns ett problem:
Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger, vilket ledde till träningskollapser.
De vanliga lösningarna: gradientklippning, noggrann initialisering och att hoppas att allt går bra.
DeepSeek gick tillbaka till de första principerna: vilken matematisk begränsning skulle garantera stabilitet?
Svaret låg gömt i en 59 år gammal algoritm (Sinkhorn-Knopp 1967)
Det tvingar blandningsmatriser att vara dubbelt stokastiska, vilket innebär att rader och kolumner summeras till 1.
Resultaten:
- 3000x instabilitet → 1,6x
- Stabilitet garanterad av matematik, inte tur
- Endast 6,7 % extra utbildningskostnader
Inga hack. Bara matte.
Om du vill läsa mer har jag delat länken till artikeln i nästa tweet.

papper:
189
Topp
Rankning
Favoriter
