DeepSeek, yapay zekanın en eski sorunlarından birini çözdü. (60 yıllık bir algoritma kullanılarak) İşte hikaye: Derin öğrenme hızla ilerlediğinde, araştırmacılar bir duvara çarptı. Katmanları sonsuzca üst üste koyamazsınız. Sinyaller ya patlar ya da kaybolur. Derin ağları eğitmek neredeyse imkansızdı. ResNets bunu 2016'da kalan bağlantılarla çözdü: çıktı = giriş + katmanın öğrendikleri O "+" doğrudan bilgi yolu oluşturur. Bu yüzden artık yüzlerce katmanlı ağları eğitebiliyoruz. Son zamanlarda araştırmacılar şunu sordu: Ya bir yol yerine birden fazla otoyol olsaydı? Hyper-Connections (HC), bu tek şeridi 4 paralel şeride genişletti; bunlar arasında bilgiyi karıştıran öğrenilebilir matrisler bulunuyordu. Performans artışları gerçekti. Ama bir sorun vardı: Bu karıştırma matrisleri katmanlar arasında birikiyor. Her katman başına küçük %5 amplifikasyon, 60 katmandan sonra 18x olur. Makale, amplifikasyonun 3000 katına ulaşmasını ölçtü. Eğitim çöker. Sıradan çözümler? Eğim kesimleri. Dikkatli başlatma. Umarım işler yoluna girer. Bunlar hileyler. Ve hackler ölçeklenmez. DeepSeek ilk ilkelere geri döndü. Hangi matematiksel kısıtlama istikrarı garanti eder? Cevap 1967 tarihli bir makalede duruyordu: Sinkhorn-Knopp algoritması. Karıştırma matrislerini "çift stokastik" olarak zorlar; burada her satır ve sütun her biri 1'e toplanır. Sonuçlar: - 3000x istikrarsızlık 1.6x'e düşürüldü - Matematikle garanti edilen istikrar, şans değil - Sadece %6,7 ek eğitim yükü Hack yok. Sadece matematik. Bir sonraki tweet'te gazetenin linkini paylaştım.
kâğıt:
304