Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DEEPSEEK'IN HIPER BAĞLANTILARINA GIDEN 9 YILLIK YOL
Yeni Yılınız Kutlu Olsun! Son iki günü, Manifold kısıtlı Hiper Bağlantılar üzerine DeepSeek makalesinin kökenleri hakkında derin bir kafa kurgusunda geçirdim. Biraz beklenmedik bir şey oldu, bu yüzden üzerine inşa ettiği eski işlere daldım.
-> Her şey 2016'daki ResNets ile başlar (x_{l+1} = x_l + F(x_l) formülasyonu). O ve arkadaşları, kimlik teriminin değiştirilmeden geçmesinin derin ağları tamamen eğitilebilir kılan şey olduğunu göstermiştir.
-> DenseNet ve FractalNet (2016-17) her katmanı diğer katmanlara bağlamayı denedi. Daha iyi çalıştı ama bağlantılar düzeltildi, bu yüzden ağ tarafından öğrenilmedi
-> DenseFormer geçen yıl ortalama ağırlık öğrenilebilir hale getirdi. Tüm önceki katman çıktılarının ağırlıklı bir kombinasyonunu elde ediyorsunuz (ama yine de sadece bir kalıntı akış)
-> Eylül 2024'ten itibaren Hyper-Connections farklı bir yöne gitti. Daha fazla bağlantı yerine, akışı daha geniş yapıyorlar. C'den n×C boyutlarına genişletin, n akış arasına öğrenilebilir karıştırma matrisleri ekleyin
-> İşte işin ilginçleştiği yer burası! Katmanları üst üste koyduğunuzda, bu karıştırma matrisleri birbirine çarpar. Eğer kısıtlanmazlarsa, ürün patlayabilir. DeepSeek, 27B modellerinde yaklaşık 3000 kat kazanç büyüklüğü buldu. Kimlik eşlemesinin tüm amacı ortadan kalktı.
mHC, karışım matrislerini Sinkhorn-Knopp yinelemeleriyle çift stokastik olarak kısıtlayarak bunu düzeltir. Bu matrisler spektral norm <= 1 olur ve çarpıldığında iki kat stokastik kalır. Kazanç ~1.6x'e düşer.
2021 tarihli Sinkformers makalesiyle güzel bir bağlantı var; makalede dikkat matrislerine Sinkhorn uygulanmıştı. mHC de aynı şeyi yapıyor ama kalan bağlantılar için!
Sonuç = kararlı eğitim, hem temel hem de kararsız yüksek sistem yüksekliğinden geçer, sistem optimizasyonundan sonra %6,7 genel gider!!
Kalan bağlantı 2016'dan beri neredeyse dokunulmamış durumda. Bu, büyük bir LFG'nin başlangıcı olabilir

En İyiler
Sıralama
Takip Listesi
