Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
JALAN 9 TAHUN MENUJU KONEKSI HIPER DEEPSEEK
Selamat Tahun Baru! Saya telah menghabiskan dua hari terakhir di lubang kelinci yang dalam tentang asal-usul makalah DeepSeek tentang Koneksi Hiper yang dibatasi oleh Manifold. Itu agak keluar dari lapangan kiri, jadi saya menggali pekerjaan lama yang dibangun di atasnya.
-> Semuanya dimulai dengan ResNets pada tahun 2016 (formulasi x_{l+1} = x_l + F(x_l))). Dia dkk. menunjukkan bahwa istilah identitas yang melewati tanpa modifikasi adalah apa yang membuat jaringan dalam dapat dilatih sama sekali.
-> DenseNet dan FractalNet (2016-17) mencoba menghubungkan setiap lapisan ke setiap lapisan lainnya. Bekerja lebih baik tetapi koneksinya diperbaiki, jadi tidak ada yang dipelajari oleh jaringan
-> DenseMantan tahun lalu membuat bobot rata-rata dapat dipelajari. Anda mendapatkan kombinasi tertimbang dari semua output layer sebelumnya (tetapi masih hanya satu aliran sisa)
-> Hyper-Connections dari September 2024 pergi ke arah yang berbeda. Alih-alih lebih banyak koneksi, mereka membuat aliran lebih luas. Perluas dari dimensi C ke n×C, tambahkan matriks pencampuran yang dapat dipelajari di antara n aliran
-> Di sinilah menjadi menarik! Saat Anda menumpuk lapisan, matriks pencampuran tersebut berkembang biak bersama. Jika tidak dibatasi, produk bisa meledak. DeepSeek menemukan magnitudo penguatan sekitar 3000x pada model 27B mereka. Seluruh inti dari pemetaan identitas hilang.
mHC memperbaikinya dengan membatasi matriks pencampuran menjadi stokastik ganda melalui iterasi Sinkhorn-Knopp. Matriks ini memiliki norma spektral <= 1 dan tetap stokastik ganda ketika dikalikan bersama. Keuntungan turun menjadi ~1,6x.
Ada koneksi yang bagus ke makalah Sinkformers dari tahun 2021 yang menerapkan Sinkhorn ke matriks perhatian. mHC melakukan hal yang sama tetapi untuk koneksi sisa!
Hasil akhir = pelatihan stabil, mengalahkan HC dasar dan tidak stabil, 6,7% overhead setelah pengoptimalan sistem!!
Koneksi sisa pada dasarnya tidak tersentuh sejak 2016. Ini mungkin awal dari sesuatu yang besar LFG

Teratas
Peringkat
Favorit
