Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mengapa jaringan saraf belajar di tepi kekacauan
Saat Anda melatih jaringan saraf, pembaruan parameter tidak didistribusikan secara normal. Mereka berekor berat—lompatan besar yang langka menandai banyak penyesuaian kecil. Pola ini muncul di MLP, CNN, dan Transformers, di seluruh MNIST dan CIFAR-10, di seluruh pembelajaran cepat awal dan konvergensi terlambat. Ini mencurigakan universal.
Xin-Ya Zhang dan Chao Tang berpendapat ini bukan keanehan penurunan gradien stokastik atau kebisingan batch mini. Ini adalah ciri khas kritis yang terorganisir sendiri, muncul dari trade-off mendasar: prinsip entropi maksimum mendorong jaringan untuk mengeksplorasi dengan bebas, sementara kendala informasi timbal balik memaksa pembaruan untuk tetap relevan dengan tugas. Seimbangkan kedua kekuatan ini, dan Anda mendapatkan statistik hukum kekuatan—perilaku penskalaan yang sama yang terlihat dalam gempa bumi, longsoran saraf, dan pasar keuangan.
Buktinya menarik. Eksponen hukum kekuatan tetap sangat stabil selama pelatihan, bahkan ketika kerugian turun dengan urutan besarnya. Lanskap kerugian itu sendiri menunjukkan struktur multiskala: kehalusan eksponensial di bawah gangguan kecil (cekungan datar lokal), transisi ke kekasaran hukum daya pada skala yang lebih besar. Bahkan waktu pembaruan besar mengikuti statistik berekor berat—peristiwa pembelajaran besar berkumpul bersama daripada terjadi secara acak, dengan eksponen sekitar 2,5–2,7.
Apa yang membuat ini memuaskan secara konseptual adalah derivasi teoretis dari prinsip-prinsip pertama. Mulai dari maksimalisasi entropi di bawah batasan informasi, dan menggunakan formulasi jalur-integral dari divergensi KL melalui ruang parameter, penulis memulihkan persis perilaku penskalaan yang diamati. Tidak ada penyetelan halus, tidak ada asumsi ad hoc.
Implikasinya sangat dalam: pembelajaran jaringan saraf bukan hanya pengoptimalan—ini adalah proses fisik non-keseimbangan yang diatur oleh prinsip-prinsip statistik yang sama yang membentuk sistem kompleks di seluruh alam. Memahami hal ini dapat memandu desain algoritme pembelajaran yang lebih efisien dan menjelaskan mengapa SGD menggeneralisasi lebih baik daripada metode adaptif yang menekan pembaruan eksplorasi besar.
Kertas:

Teratas
Peringkat
Favorit
