Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 3 (umarım gömülü bağlantılar yeterince azalır ve çok fazla kişi bu içeriğe kızmaz)
@ylecun son zamanlarda güncel oldu, bugün şunları anlattım:
Eklem-Gömülme Tahmin Mimarisiyle Kendi Denetimli Görüntülerden Öğrenme
Genel olarak, önemli tahminlerin piksel değil, iç temsiller olduğu fikrine katılıyorum; bu nedenle üretken modeller birçok görev için biraz ters verimli veya en azından gereksiz yere verimsiz olabilir.
Ancak, içsel tahminin tam görüntü işlemeden daha ayrıntılı bir düzeyde gerçekleşmesi gerektiğini, minikolon veya hatta sinirsel düzeyde ve yerel maskelemeden çok zamansal bir bileşenle gerçekleşmesi gerektiğini düşünüyorum.
Kendi denetimli eğitim, modelden daha sonra ne sorulacağını bilmeden büyük bir veri seti üzerinde çalışır, sadece verilerden bilgi biriktirilir. Sonrasında, çıkışta basit bir lineer sınıflandırıcı (lineer prob) eğitebilir ve oldukça iyi performans elde edebilirsiniz. Dondurulmuş kendi kendine denetlenen modellerdeki en iyi doğrusal problar, uçtan uca eğitilmiş sınıflandırıcılar kadar güçlü değildir, ancak aynı SSM aynı anda birçok farklı görev için güçlü olabilir.
Makale, JEPA'nın aksine, aynı görüntüyü alıp temsilsel benzerliği koruyarak iki farklı şekilde güçlendiren Değişmezlik tabanlı eğitim yöntemlerinin, performans gösterişini, araştırmacı önyargılı görüntü artırma seti pahasına elde ettiğini ve bunun ses veya metin gibi diğer modalitelere aktarılmadığını belirtiyor. JEPA'nın tam olarak yapılan maskelemeye çok hassas olduğunu (tablo 6) belirtiyorum, bu da çok farklı hissettirmiyor.
Hedef kodlayıcı, DQN RL ağlarındaki hedef modelin modern formülasyonuna yüzeysel olarak benzer; burada ağırlıkların EMA'sı ile ara sıra kopya yerine bir EMA'ya sahiptir, ancak RL için bir kararlılık yardımcısı olsa da (her zaman gerekli değildir), burada daha temel bir amacı modelin tahmin edilemeyecek temsillere çökermesini önlemektir. Bu ve LayerNorm'un bunun önemli bir unsuru olması makalede açıkça belirtilmemiş ve başka yerlerde referanslar bulmak zorunda kaldım.
Bağlama rastgele 0.85-1.0 kırpımı uygulamaları ama sadece sağdan ve alttan blokları çıkarmaları biraz tuhaf. O kasımın ablasyonunu görmeyi bekliyordum.
Görüntü çözünürlüğünü artırmak, modeli ölçeklendirmenin biraz tuhaf bir yolu. Muhtemelen aslında çözüm değil, toplam yama sayısı yardımcı oluyor.
Kendi denetimim üzerine sadece hafifçe aşina olduğum çok sayıda çalışma var, bu yüzden muhtemelen JEPA'nın bazı temel ayırt edici yönlerini kaçırıyorum. Hâlâ bağlamların tam olarak ne öğrendiği ve model mimarisi ile eğitimin onu çöküşten nasıl uzaklaştırdığı temel sorusuyla uğraşıyorum.
En İyiler
Sıralama
Takip Listesi
