Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tesla'da bir ML Mühendisi mülakatındasın.
Röportajcı: Aracın kenar donanımına bir sinir ağı yerleştirmemiz gerekiyor, ama bu hafızaya sığmıyor. Bunu nasıl yönetirsiniz?
Sen: Daha küçük bir modeli eğitmek için bilgi damıtımı kullanacağım.
Mülakat bitti.
İşte kaçırdığınız şeyler:
Bilgi damıtılması haftalarca hesaplama gerektirir, çünkü temelde yeni bir model eğitiyorsunuz.
Ama çözüm zaten eğitilmiş ağınızın içinde.
Çoğu nöron ölü yüktür - hafızayı tüketir ama tahminlere neredeyse hiç katkıda bulunmaz.
Onları nasıl tanıyacağımıza bakalım!
İşte adımlar:
) 1 Adım Sinir ağını her zamanki gibi eğitin.
) 2 Adım Doğrulama kümesini eğitilmiş ağdan geçirin ve gizli katmanlardaki her nöron için şunları hesaplayın:
- Ortalama aktivasyon
- Aktivasyonların varyansı (aktivasyonlar -ve olabilirse)
Bunu👇 kontrol et

) 3 Adım Modelin çıktısı üzerinde çok az etkiye sahip oldukları için sıfıra yakın aktivasyon ortalamasına ve varyansına sahip nöronları budayın.
İdeal olarak, boyut ve doğruluk ödünleşimlerinize uyan modeli seçmek için performansı birkaç budama eşiğine göre çizin.
Bunu 👇 kontrol et

Koda bakalım.
Basit bir sinir ağı tanımlayarak başlıyoruz ve onu eğitiyoruz.
Budama için nöron düzeyindeki aktivasyonları daha sonra hesaplayacağımız için, ileri geçişteki tüm ara aktivasyonları döndürürüz.
Bunu👇 kontrol et

Ardından, üç öğeli iki liste tanımlıyoruz:
- Biri aktivasyonların ortalamasını saklayacak
- Bir diğeri, std dev'in aktivasyonlarını saklayacak
Her gizli katman için bu istatistikleri hesaplamak için doğrulama kümesini modelimizden geçiririz.
Bunu 👇 kontrol et

Bu noktada, yukarıda oluşturduğumuz nöron düzeyindeki istatistiklerin bir dağılım grafiğini oluşturalım.
Aşağıda gösterildiği gibi, çoğu nöronun ortalama aktivasyonları ve std geliştiricileri. sıfıra yakın değerler etrafında yoğun bir şekilde dağılmıştır.
Şimdi onları budamaya çalışalım.

Budama için, bir eşik listesi üzerinde yineliyoruz ve:
- Yeni bir ağ oluşturun ve eşiği geçen ağırlıkları aktarın.
- Yeni ağı değerlendirin ve toplam parametreleri hesaplayın.
- Sonuçları bir listeye ekleyin.
Bunu 👇 kontrol et

Bu tablo, budanmış modelin doğruluğunu ve boyut küçültmesini orijinal modele göre çeşitli eşiklerde karşılaştırır.
ortalama=0.1 ve std-dev=0.4'te:
- Modelin doğruluğu %0,08 oranında düşüyor.
- Modelin boyutu %62 oranında küçülür.
Bu çok büyük bir azalma.
Bunu 👇 kontrol et

İşte başka bir ilginç sonuç.
ortalama=0.5 ve std-dev=1'de:
- Modelin doğruluğu %0,5 oranında düşer.
- Modelin boyutu %74 oranında küçülür.
Yani esasen, parametrelerin 1/4'ü için neredeyse benzer performans elde ediyoruz.
Bunu 👇 kontrol et

Tabii ki, doğruluk ve boyut arasında bir değiş tokuş vardır. Boyutu küçülttükçe doğruluğu düşer (videoyu kontrol edin).
Ancak çoğu durumda, optimize ettiğimiz tek ölçüm doğruluk değildir.
Bunun yerine verimlilik, bellek vb. gibi çeşitli operasyonel ölçümler temel faktörlerdir.
339
En İyiler
Sıralama
Takip Listesi
