Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek hat gerade ein beeindruckendes Papier veröffentlicht, um 2025 abzuschließen
"mHC: Manifold-Constrained Hyper-Connections"
Hyper-Connections verwandeln die einzelne Residual-"Autobahn" in Transformatoren in n parallele Fahrspuren, und jede Schicht lernt, wie man Signale zwischen den Fahrspuren mischt und teilt.
Wenn jede Schicht jedoch Fahrspuren beliebig verstärken oder verkleinern kann, führt das Produkt dieser Mischungen über die Tiefe dazu, dass Signale/Gradienten explodieren oder verblassen.
Deshalb zwingen sie jede Mischung, massenerhaltend zu sein: eine doppelt stochastische Matrix (nicht negativ, jede Zeile/Spalte summiert sich zu 1). Jede Schicht kann nur Signale über die Fahrspuren umverteilen, nicht erzeugen oder zerstören, sodass der tiefe Skip-Pfad stabil bleibt, während die Merkmale weiterhin gemischt werden!
Mit n=4 erhöht sich die Trainingszeit um ~6,7%, senkt jedoch den endgültigen Verlust um ~0,02 und hält den schlimmsten Fall des rückwärts gerichteten Gewinns bei ~1,6 (im Vergleich zu ~3000 ohne die Einschränkung), mit konsistenten Benchmark-Gewinnen über alle Bereiche.

Top
Ranking
Favoriten
