🚨 NOVINKA: DeepSeek právě přinesl zásadní zlepšení architektury Transformeru Generální ředitel Wenfeng Liang na seznamu autorů VELRYBA JE ZPÁTKY 🐋
Článek "mHC: Manifold-Constrained Hyper-Connections" navrhuje rámec pro zlepšení hyper-spojení u transformerů. Používá mnohorozměrné projekce k obnovení mapování identity, řeší trénovací nestabilitu, limity škálovatelnosti a paměťové režie. Mezi klíčové výhody patří zlepšení výkonu a efektivity ve velkých modelech, jak ukázaly experimenty.
75