🚨 BREAKING: DeepSeek heeft zojuist een fundamentele verbetering in de Transformer-architectuur uitgebracht CEO Wenfeng Liang op de auteurslijst DE WHALE IS TERUG 🐋
Het paper "mHC: Manifold-Constrained Hyper-Connections" stelt een kader voor om Hyper-Connections in Transformers te verbeteren. Het maakt gebruik van manifoldprojecties om de identiteitsmapping te herstellen, waarmee traininginstabiliteit, schaalbaarheidslimieten en geheugendoorbelasting worden aangepakt. Belangrijke voordelen zijn verbeterde prestaties en efficiëntie in grootschalige modellen, zoals aangetoond in experimenten.
82