Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek baru saja memperbaiki salah satu masalah tertua AI.
(menggunakan algoritma berusia 60 tahun)
Berikut kisahnya:
Ketika pembelajaran mendalam lepas landas, para peneliti menabrak tembok. Anda tidak bisa hanya menumpuk lapisan tanpa henti. Sinyal meledak atau menghilang. Melatih jaringan yang mendalam hampir tidak mungkin.
ResNets menyelesaikannya pada tahun 2016 dengan koneksi sisa:
output = input + apa yang dipelajari lapisan
"+" itu menciptakan jalan raya langsung untuk informasi. Inilah sebabnya mengapa kita sekarang dapat melatih jaringan dengan ratusan lapisan.
Baru-baru ini, para peneliti bertanya: bagaimana jika kita memiliki beberapa jalan raya, bukan satu?
Hyper-Connections (HC) memperluas jalur tunggal itu menjadi 4 jalur paralel dengan matriks yang dapat dipelajari yang mencampur informasi antar aliran.
Peningkatan kinerja nyata. Tapi ada masalah:
Matriks pencampuran tersebut bersenyawa di seluruh lapisan. Amplifikasi kecil 5% per lapisan menjadi 18x setelah 60 lapisan. Makalah mengukur amplifikasi mencapai 3000x. Pelatihan runtuh.
Perbaikan biasa? Kliping gradien. Inisialisasi yang hati-hati. Berharap semuanya berhasil.
Ini adalah peretasan. Dan peretasan tidak berskala.
DeepSeek kembali ke prinsip pertama. Kendala matematis apa yang akan menjamin stabilitas?
Jawabannya ada di makalah tahun 1967: algoritma Sinkhorn-Knopp.
Ini memaksa matriks pencampuran menjadi "stokastik ganda", di mana baris dan kolom masing-masing berjumlah menjadi 1.
Hasilnya:
- Ketidakstabilan 3000x berkurang menjadi 1,6x
- Stabilitas dijamin oleh matematika, bukan keberuntungan
- Hanya 6,7% overhead pelatihan tambahan
Tidak ada peretasan. Hanya matematika.
Saya telah membagikan tautan ke makalah di tweet berikutnya.

kertas:
301
Teratas
Peringkat
Favorit
