Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Förenkla LLM:er, AI-agenter, RAG och maskininlärning för dig! • Medgrundare @dailydoseofds_• BITS Pilani • 3 patent • f.d. AI-ingenjör @ LightningAI
Få vet detta om L2-regularisering:
Det är INTE bara en regulariseringsteknik.
De flesta använder L2-regularisering till en sak: minska överanpassning. Men det finns något annat som den gör anmärkningsvärt bra.
L2-regularisering är en utmärkt lösning mot multikollinearitet.
Multikollinearitet uppstår när två eller fler funktioner är starkt korrelerade, eller när en egenskap kan förutsäga en annan. Detta är en mardröm för linjära modeller.
Här är varför:
Betrakta en datamängd med två starkt korrelerade egenskaper (egenskap A och egenskap B) och en målvariabel (y).
Din linjära modell har två parametrar (θ₁, θ₂), och målet är att hitta värden som minimerar restsumman av kvadrater (RSS).
Nu ska vi visualisera detta:
Plotta RSS-värdet för många kombinationer av (θ₁, θ₂). Du får en 3D-yta där:
→ x-axel är θ₁
→ y-axel är θ₂
→ z-axeln är RSS-värdet
Utan L2-regularisering får du en dal.
Flera parameterkombinationer ger dig samma minsta RSS. Modellen kan inte bestämma sig för vilken den ska välja. Denna instabilitet är multikollinearitetens förbannelse.
Med L2-regulariseringen försvinner dalen.
Du får ett enda globalt minimum. Modellen har nu ett tydligt svar.
Detta är den dolda superkraften med L2-regularisering som de flesta tutorials hoppar över. Det handlar inte bara om att förhindra överanpassning. Det handlar om att ge din modell stabilitet när funktioner korrelerar.
👉 Över till dig: Visste du detta om L2-regularisering?

784
DeepSeek har precis löst ett av AI:s äldsta problem.
(med hjälp av en 60 år gammal algoritm)
Här är historien:
När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet. Signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt.
ResNets löste detta 2016 med residual kopplingar:
utgång = indata + vad lagret lärde sig
Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager.
Nyligen frågade forskare: tänk om vi hade flera motorvägar istället för en?
Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar.
Prestandaförbättringarna var verkliga. Men det fanns ett problem:
Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger. Träningen kollapsar.
De vanliga fixarna? Gradientklippning. Försiktig initiering. Hoppas det ordnar sig.
Det här är hack. Och hacks skalar inte.
DeepSeek gick tillbaka till grundprinciperna. Vilken matematisk begränsning skulle garantera stabilitet?
Svaret fanns i en artikel från 1967: Sinkhorn-Knopp-algoritmen.
Det tvingar blandningsmatriser att vara "dubbelt stokastiska", där rader och kolumner summeras till 1.
Resultaten:
- 3000x instabilitet reducerad till 1,6x
- Stabilitet garanterad av matematik, inte tur
- Endast 6,7 % extra utbildningskostnader
Inga hack. Bara matte.
Jag har delat länken till artikeln i nästa tweet.

246
Hacks skalar inte. Matten gör det.
DeepSeek bevisade det precis.
De släppte en riktig hit för att avsluta 2025.
"mHC: Manifold-begränsade hyper-kopplingar."
Här är varför det är viktigt:
När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet; signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt.
ResNets löste detta 2016 med residual kopplingar:
utgång = indata + vad lagret lärde sig
Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager.
Nyligen frågade forskare: Vad om vi hade flera motorvägar istället för en?
Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar.
Prestandaförbättringarna var verkliga. Men det fanns ett problem:
Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger, vilket ledde till träningskollapser.
De vanliga lösningarna: gradientklippning, noggrann initialisering och att hoppas att allt går bra.
DeepSeek gick tillbaka till de första principerna: vilken matematisk begränsning skulle garantera stabilitet?
Svaret låg gömt i en 59 år gammal algoritm (Sinkhorn-Knopp 1967)
Det tvingar blandningsmatriser att vara dubbelt stokastiska, vilket innebär att rader och kolumner summeras till 1.
Resultaten:
- 3000x instabilitet → 1,6x
- Stabilitet garanterad av matematik, inte tur
- Endast 6,7 % extra utbildningskostnader
Inga hack. Bara matte.
Om du vill läsa mer har jag delat länken till artikeln i nästa tweet.

148
Topp
Rankning
Favoriter
