DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

elie

Das GLM-Team verwendet jetzt MLA!! Das ist ein ziemlich verrücktes Modell mit insgesamt 30B Parametern und etwa 4B aktiv. Sehr schöne Veröffentlichung In Bezug auf die Struktur hat es ungefähr die gleiche Tiefe wie glm4.5 air und qwen3 30B A3B, 64 insgesamt Experten anstelle von 128, aber sie aktivieren nur 5 anstelle von 9, wenn man den gemeinsamen Experten zählt.

Z.ai19. Jan., 22:44

Einführung von GLM-4.7-Flash: Ihr lokaler Programmier- und Agentenassistent. GLM-4.7-Flash setzt einen neuen Standard für die 30B-Klasse und vereint hohe Leistung mit Effizienz, was es zur perfekten leichten Bereitstellungsoption macht. Neben dem Programmieren wird es auch für kreatives Schreiben, Übersetzungen, Aufgaben mit langem Kontext und Rollenspiele empfohlen. Gewichte: API: - GLM-4.7-Flash: Kostenlos (1 gleichzeitige Nutzung) - GLM-4.7-FlashX: Hochgeschwindigkeit und erschwinglich

27

elie13. Jan., 03:14

lfg, deepseek verwendet Muon im Ablationssetup ihres neuesten Papiers

108

elie12. Jan., 03:21

es ist ziemlich verrückt, dass diese spärliche Aufmerksamkeit so gut funktioniert, sie sparsifizieren einfach 50 % der MLA-Schichten im LongCat-Flash-Basis-Modell zur Mitte des Trainings und erzielen ähnliche Ergebnisse wie das Originalmodell. die Kalibrierung wählt aus, welche MLA-Schichten sie sparsifizieren. LongCat-Flash hat diese "komische" (nicht im negativen Sinne) Schichtstruktur, bei der es 2 Aufmerksamkeits-Schichten in einer Schicht gibt, es gibt keine Erwähnung einer anderen Behandlung für diese 2 Schichten, also gehe ich davon aus, dass sie den gleichen Prozess auf beide anwenden. Der Kalibrierungsschritt ist: output = a_i · output_dense + (1 - a_i) · output_sparse die machen Gradientenabstieg auf a_i (was pro Aufmerksamkeits-Schicht ist). Wenn a_i hoch ist => muss diese Schicht dicht sein, wenn nicht, kannst du sie sparsifizieren. Auf diese Weise sparsifizieren sie 50 % der Schichten (wir haben leider nicht die Verteilung der sparsifizierten Schichten). Dieser Kalibrierungsschritt hat einen verrückten Einfluss auf die Longeval. die spärliche Aufmerksamkeit ist ebenfalls sehr einfach, sie ist fest und nicht kontextbewusst wie deepseek DSA/NSA oder MiniCPM InfiLLMv2, es ist ein gleitendes Fenster mit 8 Blöcken von 128 Tokens (also Fenstergröße 1024), die ersten 128 Tokens und die letzten 896 Tokens. ich bin neugierig, ob zukünftige @Meituan_LongCat-Modelle dies in der Produktion verwenden werden und ob es robust gegenüber RL ist!

158

Top

Ranking

Favoriten

Deutsch 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mehr über OKX Web3

Herunterladen Learn Über uns Karriere Kontakt Nutzungsbedingungen Datenschutzbestimmungen X (ehemals Twitter)

Produkt

Wallet-Dashboard Swap OKX NFT Earn Entdecken Entwickeln Explorer Sicherheit

Support

Support-Center Offizielle Verifizierung Ankündigungen DEX-Gebührenplan Mit OKX verbinden Bitcoin-Wallet Ethereum-Wallet Solana-Wallet