Ich habe den neuesten Artikel von DeepSeek gelesen () Ich werde meine oberflächlichen Gedanken dazu teilen, bitte korrigiert mich, wenn ich falsch liege. Diese Studie (mHC) bietet der KI-Industrie im Wesentlichen ein „kostengünstiges, hochrentables“ Modell-Upgrade. Modellleistung: Deutlich verbesserte „Denkkapazität“ – intelligenter: Ohne die Grundstruktur des Modells zu verändern, hat mHC die Verarbeitungsfähigkeit der KI erheblich gesteigert. In Tests zur logischen Schlussfolgerung und zum Leseverständnis (wie BBH und DROP) wurde eine Leistungssteigerung von 2,1 % bis 2,3 % erzielt. Das bedeutet, dass das Modell bei der Bearbeitung komplexer Geschäftslogik, Finanzanalysen und ähnlichen Aufgaben eher wie ein „Experte“ als wie ein „Wiedergabegerät“ agiert. Trainingskosten: Extrem niedriger Leistungsverlust für hohe Rentabilität: Obwohl diese neue Technologie die Informationsübertragungsbreite erhöht hat, wurde durch eine tiefe Software- und Hardware-Kooptimierung bei der tatsächlichen Schulung eines großen Modells mit 27 Milliarden Parametern nur etwa 6,7 % an Zeitkosten hinzugefügt. Für Investoren bedeutet dies, dass sie mit minimalen zusätzlichen Strom- und Rechenleistungskosten eine höherwertige Modellleistung erzielen können. Trainingsstabilität: Vermeidung von Vermögensverlusten durch „Trainingsabstürze“ – Abschied von Systemabstürzen: Frühere ähnliche Versuche (wie HC) wollten zwar auch die Informationsstraße verbreitern, litten jedoch unter dem Mangel an Einschränkungen, sodass große Modelle während des Trainings oft „verrückt“ wurden oder abstürzten (Loss-Sprünge), was zu einer Verschwendung wertvoller Rechenressourcen führte. mHC gewährleistet durch mathematische „Gleichgewichtssprüche“ (Manifold-Beschränkungen), dass das Modell während des Trainings extrem stabil bleibt und schützt die teuren Recheninvestitionen vor systematischen Abstürzen. Speicherbedarf: Cleverer Umgang mit Speicher zur Lösung von „Hardwareengpässen“: Diese Technologie hat die „Fahrbahn“ für Informationen um das Vierfache verbreitert, was theoretisch sehr speicherintensiv wäre. Aber DeepSeek hat durch eine Technik namens „selektive Neuberechnung“ mit etwas zusätzlicher Rechenzeit eine Menge Grafikspeicher gespart. Dadurch können bestehende High-End-Grafikkarten wie H100/H200 diese komplexeren Architekturen betreiben, ohne die Hardwarekosten zu erhöhen. Zukunftspotenzial: Durchbrechen der traditionellen Grenzen des „Maschinenstapels“ – neue Wachstumschancen: Früher wurde die Verbesserung der Modellleistung hauptsächlich durch „Datenstapelung“ und „GPU-Stapelung“ erreicht. mHC hat einen dritten Weg eröffnet: die Optimierung der internen Struktur des Modells. Es hat bewiesen, dass durch die Verbesserung der Verbindungsweise zwischen den Schichten, selbst ohne blindes Vergrößern der Modellgröße, weiterhin mehr Leistungsgewinne erzielt werden können. Analogie aus der Perspektive der Investoren: Wenn man sagt, dass große Modelle eine Fabrik sind, dann basierten frühere Upgrades auf der Erhöhung der Anzahl der Arbeiter (Erhöhung der Parameter). mHC hingegen hat die Produktionslinie und die Logistikwege der Fabrik neu organisiert, ohne die Anzahl der Arbeitsplätze wesentlich zu erhöhen. Es hat sowohl das Förderband um ein Vielfaches verbreitert, um mehr Teile zu transportieren, als auch durch ein präzises Verkehrsmanagementsystem sichergestellt, dass die Fabrik nicht wegen logistischer Staus stillsteht. Das Endergebnis ist: Die Effizienz der Fabrik hat sich erheblich verbessert, während die Strom- und Wartungskosten nahezu unverändert geblieben sind.
"mHC hat die Anforderungen an den Speicher durch AI nicht grundlegend reduziert, sondern aufgrund seines Multi-Stream-Designs den Speicherbedarf erhöht" @rickawsb Ich habe mir das mHC angesehen, theoretisch benötigt es mehr Speicher.
512