Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evrensel Akıl Yürütme Modeli
Evrensel Transformers, mantık yürütme görevlerinde standart Transformers'ı ezip geçer.
Ama neden?
Önceki çalışmalar, bu kazanımları hiyerarşik tasarımlar ve karmaşık kapı mekanizmaları gibi karmaşık mimari yeniliklere bağlıyordu.
Ancak bu araştırmacılar daha basit bir açıklama buldu.
Bu yeni araştırma, ARC-AGI'deki performans artışlarının esas olarak sıklıkla göz ardı edilen iki faktörden kaynaklandığını göstermektedir: tekrarlayan tümevarımsal yanlılık ve güçlü doğrusal olmayanlık.
Tek bir dönüşümü tekrar tekrar uygulamak, akıl yürütme görevleri için farklı katmanları üst üste yığmaktan çok daha iyi çalışır.
Sadece 4x parametreyle, bir Evrensel Transformator ARC-AGI 1'de %40 pass@1 sağlar. 32x parametreye sahip vanilla Transformers sadece %23,75 puan alıyor. Standart Transformers'larda sadece derinlik veya genişlik ölçeklendirmek getiri azalır ve hatta performansı düşürebilir.
Evrensel Akıl Yürütme Modeli (URM) tanıtılır; bu model iki teknikle bunu geliştirir. İlk olarak, ConvSwiGLU, MLP genişlemesinden sonra derinlik açısından kısa bir konvolüsyon ekler ve yerel token karışımını doğrusal olmayan yola enjekte eder. İkinci olarak, Kesilen Döngüler Yoluyla Geri Yayım, erken tekrarlayan yinelemeler için gradyan hesaplamasını atlayarak optimizasyonu stabilize eder.
Sonuçlar: ARC-AGI 1 ile %53,8 pass@1, %40 (TRM) ve %34,4 (HRM) oranından yüksek. ARC-AGI 2'de URM %16 pass@1'ye ulaşır, bu da kalp itibarını neredeyse üç katına çıkarır ve TRM'yi iki katından fazla artırır. Sudoku doğruluğu %77,6'ya ulaşıyor.
Ablasyonlar:
- Kısa konvolüsyonun kaldırılması pass@1 %53,8'den %45,3'e düşer. Kesilmiş geri yayılmayı kaldırınca bu oranı %40'a düşürür.
- SwiGLU'nun yerine ReLU gibi daha basit aktivasyonlar getiriliyor, performans %28,6'ya kadar yükseltiliyor.
- Dikkati tamamen kaldırmak doğruluğu %2'ye düşürür.
Tekrarlayan yapı, hesaplamayı etkili derinliğe dönüştürür. Standart Transformers, FLOP'ları daha yüksek katmanlarda yedek iyileştirme için harcıyor. Tekrarlayan hesaplamalar aynı bütçeyi yinelemeli akıl yürütmeye yoğunlaştırır.
Karmaşık akıl yürütme, ölçekten çok yinelemeli hesaplamadan daha fazla fayda sağlar. Tekrarlayan yapıya sahip küçük modeller, çok adımlı soyutlama gerektiren görevlerde büyük statik modellerden daha iyi performans gösterir.

En İyiler
Sıralama
Takip Listesi
