Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neden sinir ağları kaosun eşiğinde öğreniyor
Bir sinir ağı eğittiğinizde, parametre güncellemeleri normalde dağıtılmaz. Ağır kuyruklular—nadir büyük sıçrayışlar birçok küçük ayarlamayı belirgin eder. Bu desen MLP'lerde, CNN'lerde ve Transformers'larda, MNIST ve CIFAR-10'da, erken hızlı öğrenme ve geç yakınsamada görülür. Şüpheli derecede evrensel.
Xin-Ya Zhang ve Chao Tang, bunun stokastik gradyan inişi ya da mini parti gürültüsü gibi bir tuhaflık olmadığını savunuyor. Bu, temel bir takasdan doğan kendi kendini organize eden eleştirelliğin bir imzasıdır: maksimum entropi ilkesi ağı özgürce keşfetmeye iterken, karşılıklı bilgi kısıtlaması güncellemelerin görevle ilgili kalmasını zorunlu kılıyor. Bu iki gücü dengelediğinizde, depremler, nöronal çığlar ve finansal piyasalarda görülen aynı ölçeklenme davranışı olan güç yasası istatistiklerini elde edersiniz.
Kanıtlar etkileyici. Güç yasası üslubu, kayıplar kat kat düşse bile eğitim boyunca şaşırtıcı derecede stabil kalıyor. Kayıp peyzajının kendisi çok ölçekli yapı gösterir: küçük bozgunlar altında (yerel olarak düz havzalar) üstel düzgünlük, daha büyük ölçeklerde güç yasası sertliğine geçiş. Büyük güncellemelerin zamanlaması bile ağır kuyruklu istatistiklere uyulur—büyük öğrenme olayları rastgele gerçekleşmek yerine bir arada kümelenir, üsteller yaklaşık 2.5–2.7 civarındadır.
Bunu kavramsal olarak tatmin edici kılan şey, ilk prensiplerden teorik türevdir. Bilgi kısıtlaması altında entropi maksimizasyonundan başlayarak ve parametre uzayı boyunca KL divergensiyasının yol integrali formülasyonu kullanılarak, yazarlar gözlemlenen ölçekleme davranışını tam olarak geri kazanırlar. Hiçbir ince ayar yok, geçici varsayımlar yok.
Sonuçlar derinlemesine izliyor: sinir ağı öğrenmesi sadece optimizasyon değil—doğa boyunca karmaşık sistemleri şekillendiren aynı istatistiksel prensiplerle yönetilen dengesiz fiziksel bir süreçtir. Bunu anlamak, daha verimli öğrenme algoritmalarının tasarımını yönlendirebilir ve SGD'nin büyük keşif güncellemelerini bastıran uyarlanabilir yöntemlerden daha iyi genellediğini açıklayabilir.
Makale:

En İyiler
Sıralama
Takip Listesi
