Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elie
Das GLM-Team verwendet jetzt MLA!! Das ist ein ziemlich verrücktes Modell mit insgesamt 30B Parametern und etwa 4B aktiv. Sehr schöne Veröffentlichung
In Bezug auf die Struktur hat es ungefähr die gleiche Tiefe wie glm4.5 air und qwen3 30B A3B, 64 insgesamt Experten anstelle von 128, aber sie aktivieren nur 5 anstelle von 9, wenn man den gemeinsamen Experten zählt.


Z.ai19. Jan., 22:44
Einführung von GLM-4.7-Flash: Ihr lokaler Programmier- und Agentenassistent.
GLM-4.7-Flash setzt einen neuen Standard für die 30B-Klasse und vereint hohe Leistung mit Effizienz, was es zur perfekten leichten Bereitstellungsoption macht. Neben dem Programmieren wird es auch für kreatives Schreiben, Übersetzungen, Aufgaben mit langem Kontext und Rollenspiele empfohlen.
Gewichte:
API:
- GLM-4.7-Flash: Kostenlos (1 gleichzeitige Nutzung)
- GLM-4.7-FlashX: Hochgeschwindigkeit und erschwinglich

27
es ist ziemlich verrückt, dass diese spärliche Aufmerksamkeit so gut funktioniert, sie sparsifizieren einfach 50 % der MLA-Schichten im LongCat-Flash-Basis-Modell zur Mitte des Trainings und erzielen ähnliche Ergebnisse wie das Originalmodell.
die Kalibrierung wählt aus, welche MLA-Schichten sie sparsifizieren. LongCat-Flash hat diese "komische" (nicht im negativen Sinne) Schichtstruktur, bei der es 2 Aufmerksamkeits-Schichten in einer Schicht gibt, es gibt keine Erwähnung einer anderen Behandlung für diese 2 Schichten, also gehe ich davon aus, dass sie den gleichen Prozess auf beide anwenden. Der Kalibrierungsschritt ist:
output = a_i · output_dense + (1 - a_i) · output_sparse
die machen Gradientenabstieg auf a_i (was pro Aufmerksamkeits-Schicht ist). Wenn a_i hoch ist => muss diese Schicht dicht sein, wenn nicht, kannst du sie sparsifizieren. Auf diese Weise sparsifizieren sie 50 % der Schichten (wir haben leider nicht die Verteilung der sparsifizierten Schichten). Dieser Kalibrierungsschritt hat einen verrückten Einfluss auf die Longeval.
die spärliche Aufmerksamkeit ist ebenfalls sehr einfach, sie ist fest und nicht kontextbewusst wie deepseek DSA/NSA oder MiniCPM InfiLLMv2, es ist ein gleitendes Fenster mit 8 Blöcken von 128 Tokens (also Fenstergröße 1024), die ersten 128 Tokens und die letzten 896 Tokens.
ich bin neugierig, ob zukünftige @Meituan_LongCat-Modelle dies in der Produktion verwenden werden und ob es robust gegenüber RL ist!

158
Top
Ranking
Favoriten

