Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Paralel Optimizasyonda Gradient Ortalamanın Ötesinde: Gradient Uyumu Filtreleme Yoluyla Geliştirilmiş Dayanıklılık
Dün makalesinden sonra @FrancoisChauba1 tarafından tavsiye edildi.
Aralarında büyük kosinüs mesafeleri olan bağımsız gradyanların ortalamanın alınmadığı Gradient Anlaşma Filtreleme (GAF) önerir. İma olarak, eğitim kaybına yardımcı olabilecek bazı hesaplanmış gradyanların genellemeye aktif olarak zarar verdiği ve kullanılmak yerine atılması gerektiği yönündedir.
Bu, çoklu GPU dağıtık eğitimde mikro partiler olarak sunulur, ancak aynı fikir herhangi bir eğitim partisinin bölümleri için de geçerlidir.
Tesadüfen benzer bir şey deniyordum – IID tekrar tampon örneklerinden gradyanları kesmek, böylece mevcut çevrimiçi deneyim örneğiyle çelişmemek için. Henüz olumlu sonuçlar vermedi ama denemem gereken birkaç açı daha var.
Teoriyi motive eden gözlem, bir görüntü sınıflayıcısını tamamen rastgele gürültü ve rastgele etiketler üzerine eğittiğinizde, %100 eğitim doğruluğuna ve sadece rastgele şans doğrulama doğruluğuna sahip olacağı, bu da eğitim verisine açıkça fazla uyum sağlamasıdır. Bu overfit modelinde minibatch'lerin gradyanları arasındaki kosinüs benzerliğine bakarsanız, her zaman 0.99'un üzerinde, yani esasen ortogonal olduğunu belirtiyorlar. Eğer ortogonal gradyanlar aşırı uyumun güvenilir bir işaretiyse, ortogonal gradyanlı minbatch'leri atlayıp aşırı uyumu azaltabilir / genelleştirmeyi artırabilirsin.
İki mikropartinin en basit durumunda, bu kosinüs benzerliğine göre her ikisini de tutmak ya da reddetmek anlamına gelir, ancak daha fazla mikroparti ile tüm mikro partileri ilk partiyle karşılaştırmak ve testi geçenlerin ortalamasını toplamak önerilir.
Parti boyutuyla ilgili bazı yorumlar, #PaperADay 5'teki tezle çelişiyor; bu tezde parti boyutu ölçeklendirme hatalarının beta2'yi ayarlamamaktan kaynaklandığını iddia ediyor, ancak gerekçeler ampirik performans kadar önemli değil. Muhtemelen önümüzdeki birkaç gün içinde gerçek tarihli kod tabanımızda buna benzer bir şey deneyeceğim.
En İyiler
Sıralama
Takip Listesi
