Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hackler ölçeklenmez. Matematik bunu yapar.
DeepSeek bunu kanıtladı.
2025'i kapatmak için bir hit yaptılar.
"mHC: Manifold Kısıtlı Hiper-Bağlantılar."
İşte neden önemli olduğu:
Derin öğrenme hızla ilerlediğinde, araştırmacılar bir duvara çarptı. Katmanları sonsuzca üst üste koyamazsınız; Sinyaller ya patlar ya da kaybolur. Derin ağları eğitmek neredeyse imkansızdı.
ResNets bunu 2016'da kalan bağlantılarla çözdü:
çıktı = giriş + katmanın öğrendikleri
O "+" doğrudan bilgi yolu oluşturur. Bu yüzden artık yüzlerce katmanlı ağları eğitebiliyoruz.
Son zamanlarda araştırmacılar şunu sordu: Ya bir yol yerine birden fazla otoyol olsaydı?
Hyper-Connections (HC), bu tek şeridi 4 paralel şeride genişletti; bunlar arasında bilgiyi karıştıran öğrenilebilir matrisler bulunuyordu.
Performans artışları gerçekti. Ama bir sorun vardı:
Bu karıştırma matrisleri katmanlar arasında birikiyor. Her katman başına küçük %5 amplifikasyon, 60 katmandan sonra 18x olur. Makale, amplifikasyonun 3000 katına ulaştığını ve bunun eğitim çökmelerine yol açtığını ölçtü.
Alışılmış çözümler: gradyan kesme, dikkatli başlatma ve her şeyin yoluna girmesini ummak.
DeepSeek ilk ilkelere geri döndü: hangi matematiksel kısıtlama istikrarı garanti ederdi?
Cevap, 59 yıllık bir algoritmada saklanmaktı (Sinkhorn-Knopp 1967)
Bu durum, karıştırma matrislerinin iki kat stokastik olmasını zorunlu kılar, yani her satır ve sütun toplamı 1'e ulaşır.
Sonuçlar:
- 3000x kararsızlık → 1.6x
- Matematikle garanti edilen istikrar, şans değil
- Sadece %6,7 ek eğitim yükü
Hack yok. Sadece matematik.
Daha fazlasını okumak isterseniz, bir sonraki tweet'te makalenin bağlantısını paylaştım.

kâğıt:
203
En İyiler
Sıralama
Takip Listesi
