Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek, yapay zekanın en eski sorunlarından birini çözdü.
(60 yıllık bir algoritma kullanılarak)
İşte hikaye:
Derin öğrenme hızla ilerlediğinde, araştırmacılar bir duvara çarptı. Katmanları sonsuzca üst üste koyamazsınız. Sinyaller ya patlar ya da kaybolur. Derin ağları eğitmek neredeyse imkansızdı.
ResNets bunu 2016'da kalan bağlantılarla çözdü:
çıktı = giriş + katmanın öğrendikleri
O "+" doğrudan bilgi yolu oluşturur. Bu yüzden artık yüzlerce katmanlı ağları eğitebiliyoruz.
Son zamanlarda araştırmacılar şunu sordu: Ya bir yol yerine birden fazla otoyol olsaydı?
Hyper-Connections (HC), bu tek şeridi 4 paralel şeride genişletti; bunlar arasında bilgiyi karıştıran öğrenilebilir matrisler bulunuyordu.
Performans artışları gerçekti. Ama bir sorun vardı:
Bu karıştırma matrisleri katmanlar arasında birikiyor. Her katman başına küçük %5 amplifikasyon, 60 katmandan sonra 18x olur. Makale, amplifikasyonun 3000 katına ulaşmasını ölçtü. Eğitim çöker.
Sıradan çözümler? Eğim kesimleri. Dikkatli başlatma. Umarım işler yoluna girer.
Bunlar hileyler. Ve hackler ölçeklenmez.
DeepSeek ilk ilkelere geri döndü. Hangi matematiksel kısıtlama istikrarı garanti eder?
Cevap 1967 tarihli bir makalede duruyordu: Sinkhorn-Knopp algoritması.
Karıştırma matrislerini "çift stokastik" olarak zorlar; burada her satır ve sütun her biri 1'e toplanır.
Sonuçlar:
- 3000x istikrarsızlık 1.6x'e düşürüldü
- Matematikle garanti edilen istikrar, şans değil
- Sadece %6,7 ek eğitim yükü
Hack yok. Sadece matematik.
Bir sonraki tweet'te gazetenin linkini paylaştım.

kâğıt:
304
En İyiler
Sıralama
Takip Listesi
