Merhaba! Sinir ağlarını eğitmenin yeni bir yolu: eski yapay zeka fikirlerinin yeniden düzenlenmesi ve video oyunlarındaki "kayıt scumming"e dayanıyor. Bu, belirli model türlerini (özellikle küçük veya egzotik topolojileri) sıkıştıklarında kurtarabilen bir "tekme" zorlamanın bir yoludur. Kör. Evrimsel. Basınç.
Buna "Hayal kırıklığı" diyorum: kayıtlı bir video oyununu yeniden başlatıp boss savaşını yeniden denemek gibi. Nasıl? Son Bilinen İyi (LKG) bir dönemi al, SONRA bir nöronu öldürürsün. Sonra yeniden eğitim al. Dropout'un aksine, hasar partiler sırasında geçici bir gürültü değildir. Model geliştikten sonra onu kırıyoruz.
Frustration (Persistent [Stokastik] Ablasyon) oyununda, hasar, bir sonraki dönemde aynı anda kaçınılması ve doldurulması gereken bir çukurdur. 2 strateji: bir nöron için tüm ağırlıkları (gizli bir katmanda olduğu gibi) ya da sadece gelen (çıkış logiği gibi) öldürmek.
Milyonlarca parametreden yüzlerce parametreye kadar değişen basit MLP ağ topolojileriyle test ettik; genişlik (# nöron sayısı) ile derinlik (# katman) temelinde "eğitilebilirlik" katalogladık. PSA, Dropout ve Weight Decay'in kurtaramadığı bazı modelleri kurtardı: kaotik bir rejim (mavi).
Bu, Yok Olan Gradient Problemi'nin geri yayılmayı işe yaramaz hale getirdiği kırık tasarımlarda bile işe yarar. (Ki atlama bağlantılarınız olmadığında, çok katman yok!) Ayrıca, hasarı parçalayıp aynı anda farklı GPU'larda birden fazla bozulmuş LKG'yi eğitebilirsiniz.
Makale, ilk kavram kanıtını yansıtıyor ve evet, tüm fikrin *çok* sınırlamaları var. Özellikle de ratchet'in hesaplama açısından ne kadar israflı olması ya da MNIST veri setinde (bir oyuncak) olması ve ImageNet'te olmaması. Ama iyi haber! Erken ResMLP testleri umut verici sonuçlar gösteriyor!
Detaylı olmaya çalıştık. 98 topolojiyi test ettik, bunların çoğu parametre eşleştirme konfigürasyonlarına sahip (farklı boyutlar, aynı parametre sayısı). Her biri 10'dan fazla deneme yapılan 3 farklı PSA tekniğini 3 kontrol kontrol ünitesine karşı ölçtük. Toplamda 5.880 deneme. Tekrarlanabilir.
Yok Olan Gradient Problemi'nin eğitimi imkansız hale getirmesi gereken koşullarda bile (örneğin 18x18 basit bir MLP'de), PSA MNIST'teki çıkış logitlerine saldırarak eğitim verebiliyordu. Bana inanmıyor musun? Deneyin ve gör!
Burada bir sürü havalı küçük "aha" anı var. Unutmayın, temel fikirlerin hiçbiri yeni değildir. Onları yeni bir şekilde düzenledik, çünkü GPU'lar bu kadar güçlü olduğu için gerçekten mümkün olan bir şey denemek için.
Gelecek çalışmalar: • ResMLP, CNN ve Transformers üzerindeki orijinal testlerin yeniden üretilmesi (ResMLP VGP'yi düzeltiyor, ancak patolojik topolojiler için PSA'nın hâlâ yardımcı olduğu anlaşılıyor) • ImageNet'te denemek < pahalı, ama ihtiyacımız olan gerçek kanıt bu.
Gözlem: • Aynı çıkış logit'ini öldürmek sürekli olarak "anti-uzman" modeller yaratır ve karışıklık matrislerine baktığınızda disleksinin eylemde olduğunu görebilirsiniz (2. öldürme ve sınıflandırma 5, 7 ve 8'e taşır) • Stokastik saldırılara bağlı kalmak zorunda değiliz
Bu neden değerli? • Daha büyük veri setleri ve modern model mimarilerinde çalışıyorsa, umarım Küçük Dil Modelleri (SLM) oluşturmada değerli bir araç olabilir.
GitHub'da kağıt ve kod burada:
2,5K