DeepSeek baru saja menjatuhkan kertas banger untuk mengakhiri tahun 2025 "mHC: Koneksi Hiper Dibatasi Manifold" Hyper-Connections mengubah "jalan raya" sisa tunggal di transformator menjadi n jalur paralel, dan setiap lapisan mempelajari cara mengocok dan berbagi sinyal antar jalur. Tetapi jika setiap lapisan dapat secara sewenang-wenang memperkuat atau mengecilkan jalur, produk dari pengocok melintasi kedalaman tersebut membuat sinyal/gradien meledak atau memudar. Jadi mereka memaksa setiap shuffle untuk menghemat massa: matriks stokastik ganda (nonnegatif, setiap baris/kolom berjumlah menjadi 1). Setiap lapisan hanya dapat mendistribusikan kembali sinyal di seluruh jalur, bukan membuat atau menghancurkannya, sehingga jalur lewati yang dalam tetap stabil saat fitur masih bercampur! Dengan n = 4 menambahkan ~ 6,7% waktu latihan, tetapi mengurangi kerugian akhir sebesar ~ 0,02, dan mempertahankan keuntungan mundur terburuk ~ 1,6 (vs ~ 3000 tanpa batasan), dengan kemenangan tolok ukur yang konsisten di seluruh papan