🚨 BREAKING: DeepSeek baru saja menjatuhkan peningkatan mendasar dalam arsitektur Transformer CEO Wenfeng Liang dalam daftar penulis PAUS KEMBALI 🐋
Makalah "mHC: Manifold-Constrained Hyper-Connections" mengusulkan kerangka kerja untuk meningkatkan Hyper-Connections dalam Transformers. Ini menggunakan berbagai proyeksi untuk memulihkan pemetaan identitas, mengatasi ketidakstabilan pelatihan, batas skalabilitas, dan overhead memori. Manfaat utama termasuk peningkatan kinerja dan efisiensi dalam model skala besar, seperti yang ditunjukkan dalam eksperimen.
83