Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformers'ta Sessiz Özellik Öğrenimi
Bu hafta okuduğum en ilginç makalelerden biri bu.
Açıklamama izin verin:
Kayıp eğrilerinin bir modelin ne öğrendiği konusunda yanıltıcı olabileceğini savunuyor.
Sinir ağı eğitimini izlemek için varsayılan yaklaşım, birincil ilerleme ölçütü olarak kaybı kullanır. Kayıp düz ise, hiçbir şey olmuyor. Kayıp azalırsa, öğrenme gerçekleşir.
Ancak bu varsayım algoritmik görevlerde çöker.
Bu yeni araştırma, Transformers'ı on temel algoritmik görevde eğitti ve "sessiz özellikler" keşfetti: kayıp durgunlaşırken gelişen iç temsiller.
Modellerin, bu adımların çıktı performansını iyileştirmeden çok önce ara hesaplama adımlarını öğrendiğini bulmuşlardır. Ayrıca carry bitleri, BFS'de kuyruk üyeliği, çarpımda kısmi çarpımlar. Bu özellikler uzun platolarda ortaya çıkar, sonra aniden birleşerek görevi çözer.
Araştırmacılar, ikili aritmetik (toplama, çarpma), grafik algoritmaları (BFS, en kısa yol, topolojik sıralama, MST) ve dizi optimizasyonu (maksimum alt dizi, etkinlik seçimi) üzerinden iç temsilleri incelediler.
Altı görev net iki aşamalı geçişler gösterdi: uzun süreli durgunluk ve ardından ani performans artışları.
Ablasyon deneyleri nedenselliği doğruladı. 64-bit ekleme modelinden taşıma özelliklerinin çıkarılması, %75,1 doğruluk düşüşüne yol açtı. BFS'de kuyruk üyeliğinin beklenmesi, doğruluğu %43,6 oranında düşürdü.
Algoritmik görevler, birden fazla alt programın birlikte çalışmasını gerektirir. Bireysel doğru bileşenler, tüm parçalar hizalanana kadar kaybı azaltmaz. Modeller, düz kayıp eğrilerinin altında gizli yetenekler biriktirir.
Görünüşe göre çapraz entropi kaybı eksik bir tanı değil. Metrikler durağan görünse de, önemli bir iç öğrenme gerçekleşebilir. Bu, kayıp eğrilerinin ötesinde daha zengin izleme araçlarını motive ediyor.
🔖 (yer imlerine işaret ediyor)
Kâğıt:

En İyiler
Sıralama
Takip Listesi

