🚨 ULTIMĂ PERIOADĂ: DeepSeek tocmai a lansat o îmbunătățire fundamentală în arhitectura Transformer CEO-ul Wenfeng Liang pe lista autorilor BALENA S-A ÎNTORS 🐋
Lucrarea "mHC: Manifold-Consttrained Hyper-Connections" propune un cadru pentru îmbunătățirea Hyper-Connections în Transformers. Folosește proiecții multiple pentru a restaura cartografierea identității, abordând instabilitatea antrenamentului, limitele de scalabilitate și overhead de memorie. Beneficiile cheie includ performanță și eficiență îmbunătățite în modele la scară largă, așa cum s-a demonstrat în experimente.
76