#PaperADay 10 LeJEPA: Sezgisel Olmadan Kanıtlanabilir ve Ölçeklenebilir Kendi Denetimli Öğrenme #PaperADay 3'teki yorumlarda bu makale en son JEPA makalesi olarak önerildi ve gerçekten çok daha iyi görünüyor! Önceki JEPA araştırmalarının çoğunun geçici ve sezgilerle dolu olduğunu kabul ediyorlar, ancak burada güçlü teorik olarak optimallik iddialarında bulunuyor ve kanıtlar sunuyorlar (ki ben okumadım). İlk iddia, izotropik gaussian'ın hem doğrusal hem de doğrusal olmayan araştırma için benzersiz optimal gömülü dağılımı olduğudur ve bu da aşağı akış görevlerinde en kötü durumu en aza indirir. Bunu sadece "bana iyi geliyor" diye kabul ederdim ama detaylar ve örneklerle anlatıyorlar. Yüksek boyutlarda izotropik bir gauss almak aslında söylemesi kolay. Farklı istatistiksel testlerin analizinden sonra bunu başarmak için Taslaklı İzotropik Gauss Düzenleme (SIGReg) iyi davranılmış bir kayıp fonksiyonu olarak sunulur ve doğrusal ölçeklenebilirlikle boyutluluk lanetini yendiğini iddia ederler. Son kayıp, JEPA tahmin kaybını SIGReg izotropi kaybına karşı tartan bir karışım faktörüdür. Bu, LeJEPA için ayarlanabilir tek hiperparametredir. JEPA'daki P olmasına rağmen, burada tahmin ağları kullanılmıyor, sadece JEPA kaybı için doğrudan görüş gömülmelerini karşılaştırıyorlar. Tahminci ağlar, özellikle ajanlar/robotlar için aksiyon bilgisiyle koşullandırıldığında, video dizileri için hâlâ faydalı olabilir. Her eğitim görüntüsü farklı mekansal ölçeklere sahip ancak aynı renk ve geometrik dönüşümler setiyle 2 küresel ve 6 yerel görünüm elde etmek üzere artırılır. Kayıp, küresel görünüm gömmelerinin ortalaması ile her bir yerel görünüm gömmesi arasındaki ortalama MSE'dir. Görüş dönüşümlerindeki tavizleri iyi bir şekilde bilmiyorum, hala çok geçici alanda görünüyor, ama temsilden neyin filtreleneceğini onlar belirler. Önemli olmayanları öğrenmek kritiktir, ancak "matters" sözü sadece görüş dönüşümlerinde örtük olarak bulunur. LeJEPA'nın kendisi mimari bağımsızdır – bir veri setinden bir dizi örneklemi vektörlere dönüştüren her şey kullanılabilir. Vizyon dönüştürücüleri, MLP, ConvNetler vb. Görüntüleme için özel geliştirmeler giriş modalitesine özgü olur, ancak LeJEPA algoritması ses, görüntü, video veya başka şeyler üzerinde çalışabilir. Büyük bir temel modelindeki LeJEPA kaybının, hem doğrudan hem de kaybın tahmin gücünü daha da artırmak için sezgisel bir yöntemle aşağı akış görev performansının çok göstergesi olduğunu gösteriyorlar. Ayrıca, 1000 örnekle küçük veri setlerinde sıfırdan eğitim almak ve geleneksel genel temel modeli incelemekten daha iyi sonuçlar elde etmek için kullanılabileceğini göstermektedirler. Makalede Yunanca dolu sözde kod yerine örnek kod blokları ve github repo görmek beni memnun etti. Ek D, Sobol dizilerini dönüştürerek düşük tutarsızlıklı örneklerle birim hiperkürelerin iyi kapsama alanını oluşturma konusunda ilginç detaylar içeriyor, ancak bu sadece teorik analizleri için ve her partide yeni rastgele hipervektörler yapmanın daha iyi olduğunu gösteriyor; hatta 16 rastgele vektör bile sabit bir binlerce semeden daha iyi performans gösteriyor. Bazı sorular:...