DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

🚨 NVIDIA hat gerade einen Plan für das Training von KI-Modellen mit einer Billion Parametern veröffentlicht. Und es erklärt leise, wie die nächste Generation von Modellen weit über die heutigen LLMs hinaus skalieren wird. Das Papier stellt ein System zum Training von Mixture-of-Experts (MoE) Modellen vor, das Megatron Core verwendet, die gleiche Infrastruktur, die zum Training einiger der größten Modelle der Welt eingesetzt wird. Die Grundidee hinter MoE ist einfach, aber mächtig: Anstatt das gesamte Modell für jedes Token zu aktivieren, leitet das System jedes Token nur an einige spezialisierte "Experten" weiter. Das bedeutet, dass Sie die Gesamtzahl der Parameter massiv skalieren können, ohne die Rechenleistung für jedes Token zu erhöhen. In der Theorie gibt Ihnen das: • Kapazität von einer Billion Parametern • Dichte-Modell-Rechenleistung pro Token • Massive Effizienzgewinne Aber in der Praxis bricht es alles zusammen. Das Training von MoE-Modellen schafft einen Albtraum über drei Systemschichten: Speicher. Kommunikation. Berechnung. Einen zu optimieren, führt zu Engpässen bei den anderen. NVIDIAs Lösung ist im Wesentlichen ein Full-Stack-Co-Design der gesamten Trainingspipeline. Sie haben mehrere systemweite Optimierungen eingeführt: ...

Top

Ranking

Favoriten