Zu sagen, dass Deepseek Moe auf Mixtral aufgebaut ist, ist Unsinn. Das Deepseek Moe-Papier wurde nur 3 Tage nach der Veröffentlichung des Mixtral-Papiers auf arxiv veröffentlicht.
Außerdem enthält das Mixtral-Papier buchstäblich keine Details zum Training, sodass "wir haben alles veröffentlicht, was nötig war, um diese Art von Architektur wieder aufzubauen" auch falsch ist. Das Papier sagt nur: "Wir verwenden die Google Gshard-Architektur mit einfacherer Routing und Moe in jeder Schicht" und keine Details zu Daten, Hyperparametern, Trainingstokens, Ablationen usw.
Die Architektur, die Deepseek Moe verwendet, ist tatsächlich anders als Gshard und sparsamer (Deepseek Moe zitiert nicht einmal Mixtral im Papier, sondern Gshard).
Ich sage nicht, dass Mixtral keinen Einfluss auf Moe hatte, aber was in diesem Interview gesagt wird, ist ein bisschen eine Umformulierung der Erzählung, um zu sagen: "Aber schaut, China/Deepseek kopiert auch Mistral!"
Das GLM-Team verwendet jetzt MLA!! Das ist ein ziemlich verrücktes Modell mit insgesamt 30B Parametern und etwa 4B aktiv. Sehr schöne Veröffentlichung
In Bezug auf die Struktur hat es ungefähr die gleiche Tiefe wie glm4.5 air und qwen3 30B A3B, 64 insgesamt Experten anstelle von 128, aber sie aktivieren nur 5 anstelle von 9, wenn man den gemeinsamen Experten zählt.
Einführung von GLM-4.7-Flash: Ihr lokaler Programmier- und Agentenassistent.
GLM-4.7-Flash setzt einen neuen Standard für die 30B-Klasse und vereint hohe Leistung mit Effizienz, was es zur perfekten leichten Bereitstellungsoption macht. Neben dem Programmieren wird es auch für kreatives Schreiben, Übersetzungen, Aufgaben mit langem Kontext und Rollenspiele empfohlen.
Gewichte:
API:
- GLM-4.7-Flash: Kostenlos (1 gleichzeitige Nutzung)
- GLM-4.7-FlashX: Hochgeschwindigkeit und erschwinglich