Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek hat gerade eines der ältesten Probleme der KI gelöst.
(mit einem 60 Jahre alten Algorithmus)
Hier ist die Geschichte:
Als das Deep Learning aufkam, stießen die Forscher an eine Wand. Man kann nicht einfach Schichten endlos stapeln. Signale explodieren entweder oder verschwinden. Das Training tiefer Netzwerke war nahezu unmöglich.
ResNets haben dies 2016 mit Residualverbindungen gelöst:
output = input + was die Schicht gelernt hat
Das "+" schafft eine direkte Autobahn für Informationen. Deshalb können wir jetzt Netzwerke mit Hunderten von Schichten trainieren.
Kürzlich fragten die Forscher: Was wäre, wenn wir mehrere Autobahnen anstelle von einer hätten?
Hyper-Connections (HC) erweiterten diese einzelne Spur auf 4 parallele Spuren mit lernbaren Matrizen, die Informationen zwischen den Strömen mischen.
Die Leistungsgewinne waren real. Aber es gab ein Problem:
Diese Mischmatrizen kumulieren über die Schichten. Eine winzige Verstärkung von 5 % pro Schicht wird nach 60 Schichten zu 18x. Die Studie maß eine Verstärkung von bis zu 3000x. Das Training bricht zusammen.
Die üblichen Lösungen? Gradient Clipping. Sorgfältige Initialisierung. Hoffen, dass es funktioniert.
Das sind Hacks. Und Hacks skalieren nicht.
DeepSeek ging zurück zu den Grundprinzipien. Welche mathematische Einschränkung würde Stabilität garantieren?
Die Antwort fand sich in einem Papier von 1967: dem Sinkhorn-Knopp-Algorithmus.
Er zwingt Mischmatrizen, "doppelt stochastisch" zu sein, wobei die Zeilen und Spalten jeweils auf 1 summieren.
Die Ergebnisse:
- 3000x Instabilität auf 1,6x reduziert
- Stabilität garantiert durch Mathematik, nicht durch Glück
- Nur 6,7 % zusätzliche Trainingsüberhead
Keine Hacks. Nur Mathematik.
Ich habe den Link zu dem Papier im nächsten Tweet geteilt.

Papier:
305
Top
Ranking
Favoriten
