DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Schnelle Durchsicht des neuen Papiers von Deepseek über manifold-beschränkte Hyper-Verbindungen: - Sie möchten die Residualgröße von 1×C auf n×C erhöhen (n Streams anstelle von 1). Frühere Residualaktualisierung: x' = x + layer(x). Lassen Sie x n×C sein und verwenden Sie stattdessen x' = Ax + B layer(Cx). A, B, C hängen alle von x ab und sind kleine Matrizen (n×n, n×1, n×1). A scheint am einflussreichsten zu sein. Das sind Hyper-Verbindungen (HC). - HC hat dasselbe Problem wie andere Residualmodifikationsschemata - letztendlich explodiert oder verschwindet das Produkt der gelernten A-Matrizen (entlang des Identitätswegs). - Um dies zu beheben, projizieren sie die A-Matrizen auf das Birkhoff-Polytope (einfachere Worte: transformieren es, nach der Exponentialfunktion, um die Elemente positiv zu machen, zu einer Matrix, deren Zeilen- und Spaltensummen 1 ergeben - genannt eine doppelt stochastische Matrix). Dies hat schöne Eigenschaften - Produkte dieser Matrizen haben weiterhin Zeilen- und Spaltensummen von 1 (aufgrund der Abgeschlossenheit), sodass die Dinge nicht explodieren (spektrale Schranke), und die Invarianz ist, dass die Summe der Gewichte über die Streams 1 beträgt. Für n = 1 wird dies zum standardmäßigen Residualstream, was schön ist. Ihre Transformationsmethode ist einfach - abwechselnd Zeilen und Spalten durch die Zeilen- und Spaltensummen für 20 Iterationen teilen (konvergiert zu unserer gewünschten Matrix, wenn die Iterationen gegen unendlich gehen). Sie stellen fest, dass 20 für sowohl den Vorwärts- als auch den Rückwärtsdurchlauf ausreichend ist (über 60 Schichten, der maximale Rückwärtsgewinn beträgt 1,6 im Vergleich zu 3000 aus dem üblichen HC, und 1,6 weicht nicht sehr von 1 ab). - Das Zusammensetzen dieser Matrizen (konvexer Hüllraum aller Permutationsmatrizen) führt zu Informationsmischung, wenn der Schichtindex zunimmt, was ein schöner intuitiver Aspekt ist und auch sehr klar in ihrer zusammengesetzten Matrix für 60 Schichten gezeigt wird. Ich glaube, insgesamt erhalten wir eine gewichtete Summe der Residualpfade (im Hinblick auf Gradienten), bei denen logisch gruppierbare Pfade Gewichte haben, die sich zu 1 summieren. Eine ziemlich prinzipielle Herangehensweise, meiner Meinung nach, macht auch die Gewinne (vorwärts und rückwärts) sehr stabil. - Interessant zu beachten - viel "Pooling"-ähnliche Mischung in der ersten Hälfte im Vergleich zur zweiten Hälfte der Schichten. Die zweite Hälfte der Schichten behandelt verschiedene Kanäle präziser/schärfer als die erste Hälfte, ziemlich intuitiv. - Sie ändern auch die Parametrisierung von B und C (Sigmoid anstelle von Tanh, um wahrscheinlich das Ändern der Vorzeichen zu vermeiden, und einen Faktor von 2 vor B, ich glaube, um den mittleren Residualmultiplikator zu erhalten, C benötigt dies nicht, da der Eingang ohnehin vor-normiert ist). - Coole Systemoptimierungen, um diesen Vorgang schnell zu machen - sie führen Kernelfusion, Neuberechnung im mHC-Rückwärtsdurchlauf durch und modifizieren sogar DualPipe (ihre Implementierung der Pipeline-Parallelität). - Nur 6,7 % Overhead beim Training, wenn n = 4, der Verlust sinkt um 0,02 und Verbesserungen über Benchmarks.

Top

Ranking

Favoriten