Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Förenkla LLM:er, AI-agenter, RAG och maskininlärning för dig! • Medgrundare @dailydoseofds_• BITS Pilani • 3 patent • f.d. AI-ingenjör @ LightningAI
DeepSeek har precis löst ett av AI:s äldsta problem.
(med hjälp av en 60 år gammal algoritm)
Här är historien:
När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet. Signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt.
ResNets löste detta 2016 med residual kopplingar:
utgång = indata + vad lagret lärde sig
Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager.
Nyligen frågade forskare: tänk om vi hade flera motorvägar istället för en?
Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar.
Prestandaförbättringarna var verkliga. Men det fanns ett problem:
Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger. Träningen kollapsar.
De vanliga fixarna? Gradientklippning. Försiktig initiering. Hoppas det ordnar sig.
Det här är hack. Och hacks skalar inte.
DeepSeek gick tillbaka till grundprinciperna. Vilken matematisk begränsning skulle garantera stabilitet?
Svaret fanns i en artikel från 1967: Sinkhorn-Knopp-algoritmen.
Det tvingar blandningsmatriser att vara "dubbelt stokastiska", där rader och kolumner summeras till 1.
Resultaten:
- 3000x instabilitet reducerad till 1,6x
- Stabilitet garanterad av matematik, inte tur
- Endast 6,7 % extra utbildningskostnader
Inga hack. Bara matte.
Jag har delat länken till artikeln i nästa tweet.

238
Hacks skalar inte. Matten gör det.
DeepSeek bevisade det precis.
De släppte en riktig hit för att avsluta 2025.
"mHC: Manifold-begränsade hyper-kopplingar."
Här är varför det är viktigt:
När djupinlärning tog fart stötte forskarna på en vägg. Du kan inte bara stapla lager i all oändlighet; signaler exploderar eller försvinner. Att träna djupa nätverk var nästintill omöjligt.
ResNets löste detta 2016 med residual kopplingar:
utgång = indata + vad lagret lärde sig
Det där "+" skapar en direkt informationsväg. Det är därför vi nu kan träna nätverk med hundratals lager.
Nyligen frågade forskare: Vad om vi hade flera motorvägar istället för en?
Hyper-Connections (HC) utökade den enkla filen till fyra parallella filer med inlärningsbara matriser som blandar information mellan strömmar.
Prestandaförbättringarna var verkliga. Men det fanns ett problem:
Dessa blandningsmatriser sammansätts över lager. En liten förstärkning på 5 % per lager blir 18x efter 60 lager. Artikeln mätte förstärkningen som nådde 3000 gånger, vilket ledde till träningskollapser.
De vanliga lösningarna: gradientklippning, noggrann initialisering och att hoppas att allt går bra.
DeepSeek gick tillbaka till de första principerna: vilken matematisk begränsning skulle garantera stabilitet?
Svaret låg gömt i en 59 år gammal algoritm (Sinkhorn-Knopp 1967)
Det tvingar blandningsmatriser att vara dubbelt stokastiska, vilket innebär att rader och kolumner summeras till 1.
Resultaten:
- 3000x instabilitet → 1,6x
- Stabilitet garanterad av matematik, inte tur
- Endast 6,7 % extra utbildningskostnader
Inga hack. Bara matte.
Om du vill läsa mer har jag delat länken till artikeln i nästa tweet.

140
Google tränade en modell på miljontals användares meddelanden.
Utan att någonsin se ett enda meddelande.
Det kallas Federated Learning. Google, Apple, Meta och alla stora teknikföretag använder det.
Låt mig förklara hur det fungerar:
Föreställ dig att du vill bygga ett tangentbord som förutser vad användare skriver härnäst.
Den bästa träningsdatan? Faktiska meddelanden från miljontals telefoner. Men du kan inte hämta det. Det är privat, känsligt och användarna skulle göra uppror.
Federated learning vänder på det hela. Istället för att föra data till modellen, tar du modellen till datan.
Så här går det till:
"Skicka ut modellen."
Din telefon laddar ner ett litet neuralt nätverk. Den finns lokalt på din enhet.
→ Detta är den globala modellen W
"Träna där datan finns."
Medan du skriver lär sig din telefon tyst dina mönster. "omw" → "vara där om 10". Den beräknar hur modellen ska förbättras.
→ Dessa är lokala gradienter ΔW
"Skicka bara tillbaka lärdomarna."
Din telefon skickar viktuppdateringar till servern. Inte dina meddelanden. Inte din skrivhistorik. Bara matte.
→ Detta är steget för uppdateringsaggregering
"Genomsnittligt över tusentals enheter"
Servern samlar uppdateringar från tusentals telefoner. Vanliga mönster förstärker. Individuella quirks tar ut varandra.
→ Detta är FedAvg: W_new = W + (1/n) × Σ(ΔWk)
Fyra steg. Ingen rådata lämnar din enhet. Bara elegant samordning (se bilden nedan).
Det bästa:
Detta låser upp data som tidigare var omöjlig att använda.
Sjukhus samarbetar kring cancerupptäckt utan att dela patientundersökningar. Banker bygger bedrägerimodeller utan att exponera transaktioner. Smarta hem lär sig preferenser utan privata stunder som når molnet.
Integritet och nytta är inga kompromisser. Att respektera datagränser är det som gör modellen möjlig.
Så innan du centraliserar allt, tänk på: den bästa träningsdatan kan redan finnas, fast på enheter du aldrig kommer att komma åt direkt.
I nästa tweet har jag delat en riktigt bra video som förklarar detta.

1,68K
Topp
Rankning
Favoriter
