Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
es ist ziemlich verrückt, dass diese spärliche Aufmerksamkeit so gut funktioniert, sie sparsifizieren einfach 50 % der MLA-Schichten im LongCat-Flash-Basis-Modell zur Mitte des Trainings und erzielen ähnliche Ergebnisse wie das Originalmodell.
die Kalibrierung wählt aus, welche MLA-Schichten sie sparsifizieren. LongCat-Flash hat diese "komische" (nicht im negativen Sinne) Schichtstruktur, bei der es 2 Aufmerksamkeits-Schichten in einer Schicht gibt, es gibt keine Erwähnung einer anderen Behandlung für diese 2 Schichten, also gehe ich davon aus, dass sie den gleichen Prozess auf beide anwenden. Der Kalibrierungsschritt ist:
output = a_i · output_dense + (1 - a_i) · output_sparse
die machen Gradientenabstieg auf a_i (was pro Aufmerksamkeits-Schicht ist). Wenn a_i hoch ist => muss diese Schicht dicht sein, wenn nicht, kannst du sie sparsifizieren. Auf diese Weise sparsifizieren sie 50 % der Schichten (wir haben leider nicht die Verteilung der sparsifizierten Schichten). Dieser Kalibrierungsschritt hat einen verrückten Einfluss auf die Longeval.
die spärliche Aufmerksamkeit ist ebenfalls sehr einfach, sie ist fest und nicht kontextbewusst wie deepseek DSA/NSA oder MiniCPM InfiLLMv2, es ist ein gleitendes Fenster mit 8 Blöcken von 128 Tokens (also Fenstergröße 1024), die ersten 128 Tokens und die letzten 896 Tokens.
ich bin neugierig, ob zukünftige @Meituan_LongCat-Modelle dies in der Produktion verwenden werden und ob es robust gegenüber RL ist!

Top
Ranking
Favoriten
