🚨 BREAKING: DeepSeek hat gerade eine grundlegende Verbesserung der Transformer-Architektur veröffentlicht CEO Wenfeng Liang auf der Autorenliste DER WHALE IST ZURÜCK 🐋
Das Papier "mHC: Manifold-Constrained Hyper-Connections" schlägt ein Framework vor, um Hyper-Connections in Transformern zu verbessern. Es verwendet Mannigfaltigkeitsprojektionen, um die Identitätsabbildung wiederherzustellen, und adressiert Instabilitäten beim Training, Skalierbarkeitsgrenzen und Speicherüberkopf. Die wichtigsten Vorteile sind verbesserte Leistung und Effizienz in großangelegten Modellen, wie in Experimenten gezeigt.
105