Hackler ölçeklenmez. Matematik bunu yapar. DeepSeek bunu kanıtladı. 2025'i kapatmak için bir hit yaptılar. "mHC: Manifold Kısıtlı Hiper-Bağlantılar." İşte neden önemli olduğu: Derin öğrenme hızla ilerlediğinde, araştırmacılar bir duvara çarptı. Katmanları sonsuzca üst üste koyamazsınız; Sinyaller ya patlar ya da kaybolur. Derin ağları eğitmek neredeyse imkansızdı. ResNets bunu 2016'da kalan bağlantılarla çözdü: çıktı = giriş + katmanın öğrendikleri O "+" doğrudan bilgi yolu oluşturur. Bu yüzden artık yüzlerce katmanlı ağları eğitebiliyoruz. Son zamanlarda araştırmacılar şunu sordu: Ya bir yol yerine birden fazla otoyol olsaydı? Hyper-Connections (HC), bu tek şeridi 4 paralel şeride genişletti; bunlar arasında bilgiyi karıştıran öğrenilebilir matrisler bulunuyordu. Performans artışları gerçekti. Ama bir sorun vardı: Bu karıştırma matrisleri katmanlar arasında birikiyor. Her katman başına küçük %5 amplifikasyon, 60 katmandan sonra 18x olur. Makale, amplifikasyonun 3000 katına ulaştığını ve bunun eğitim çökmelerine yol açtığını ölçtü. Alışılmış çözümler: gradyan kesme, dikkatli başlatma ve her şeyin yoluna girmesini ummak. DeepSeek ilk ilkelere geri döndü: hangi matematiksel kısıtlama istikrarı garanti ederdi? Cevap, 59 yıllık bir algoritmada saklanmaktı (Sinkhorn-Knopp 1967) Bu durum, karıştırma matrislerinin iki kat stokastik olmasını zorunlu kılar, yani her satır ve sütun toplamı 1'e ulaşır. Sonuçlar: - 3000x kararsızlık → 1.6x - Matematikle garanti edilen istikrar, şans değil - Sadece %6,7 ek eğitim yükü Hack yok. Sadece matematik. Daha fazlasını okumak isterseniz, bir sonraki tweet'te makalenin bağlantısını paylaştım.
kâğıt:
203