Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
DS, ML, LLM'ler ve RAG'ler hakkında günlük eğitimler ve içgörüler • Kurucu Ortak @dailydoseofds_ • IIT Varanasi • eski Yapay Zeka Mühendisi @ MastercardAI
LLM'leri 2 yıldan fazla süredir ince ayar yapıyorum!
İşte görsellerle açıklanan en iyi 5 LLM ince ayar tekniği:
Öncelikle, LLM ince ayarlamasında ne fark var?
Geleneksel ince ayar LLM'ler (milyarlarca param; 100 GB) için pratik değildir.
Bu tür hesaplamalar herkese erişilmediği için, parametre verimli ince ayar (PEFT) ortaya çıktı.
Her tekniğin detaylarına girmeden önce, bu teknikleri daha iyi anlamanıza yardımcı olacak bazı arka planlar şunlardır:
LLM ağırlıkları, ince ayar sırasında ayarlanmış sayıların matrisleridir.
Çoğu PEFT tekniği, bu matrislerin daha düşük seviyeli bir uyarlanmasını içerir; orijinalde depolanan bilgiyi temsil edebilen daha küçük boyutlu bir matris bulunur.
Şimdi bir matrisin derecesini temel bir şekilde anladığımızda, farklı ince ayar tekniklerini anlamak için iyi bir konumdayız.
(her tekniğin görsel açıklaması için aşağıdaki görsele bakınız)
1) LoRA
- Ağırlık matrislerinin yanına iki düşük seviyeli eğitilebilir matris, A ve B, eklenin.
- W'yi ince ayar etmek yerine, bu düşük seviyeli matrislerdeki güncellemeleri ayarlayın.
En büyük LLM'ler için bile, LoRA matrisleri birkaç MB bellek kaplar.
2) LoRA-FA
LoRA, toplam eğitilebilir parametreleri önemli ölçüde azaltsa da, düşük seviye ağırlıkları güncellemek için önemli bir aktivasyon belleği gerektirir.
LoRA-FA (FA, Frozen-A anlamına gelir) A matrisini dondurur ve sadece B matrisini günceller.
3) VeRA
- LoRA'da, düşük dereceli matrisler A ve B her katman için benzersizdir.
- VeRA'da A ve B dondurulmuş, rastgele ve tüm katmanlar arasında paylaşılmıştır.
- Bunun yerine, katmana özgü ölçeklendirme VEKTÖRLERİ (b ve d) öğrenir.
4) Delta-LoRA
- Matris W'yi de ayarlıyor, ancak geleneksel şekilde değil.
- Burada, ardışık iki eğitim adımında A ve B matrislerinin çarpımı arasındaki fark (veya delta) W'ye eklenir.
5) LoRA+
- LoRA'da, hem A hem de B matrisleri aynı öğrenme hızıyla güncellenir.
- LoRA+ yazarları, matris B için daha yüksek öğrenme oranı belirlemenin daha iyi yakınsamaya yol açtığını bulmuştur.
____
Bana → @_avichawla
Her gün DS, ML, LLM'ler ve RAG'lar hakkında eğitimler ve içgörülerim paylaşıyorum.

32,34K
Önyargı-varyans takasında eksik bir detay var!
Çok az makine öğrenimi mühendisi bunu biliyor.
Bir polinom regresyon modelini sahte bir veri setine uyarlayın, örneğin y=sin(x) + gürültü.
Görseldeki ilk grafikte gösterildiği gibi, dereceyi (m) artırdıkça:
- Eğitim kaybı sıfıra düşecek.
- Test (veya doğrulama) kaybı azalır ve sonra artar.
Ama dereceyi (m) artırmaya devam ettikçe ne olduğunu fark edin:
↳ Test kaybı tekrar azalıyor (ikinci grafikte gösterilmiştir)
Buna "çift iniş olgusu" denir ve derin öğrenme modellerinde yaygın olarak gözlemlenir.
Modelin karmaşıklığının artırılmasının genelleştirme performansını artırabileceğini gösterdiği için mantıksızdır.
Bildiğim kadarıyla, bu hâlâ açık bir soru. Sinir ağlarının neden bu davranışı sergilediği tam olarak net değil.
Ancak düzenleme üzerine bazı teoriler var, örneğin şöyle:
Modelin örtük bir düzenleme uygulaması olabilir. Sonuç olarak, genelleme için uygun sayıda parametreye tam olarak odaklanabilir.
Aslında, kendiniz de deneyebilirsiniz:
- N boyutunda küçük bir sahte veri seti oluşturun.
- 1'den n'den büyük bir değere kadar m dereceli polinom regresyonunu eğitmek.
- Her m için test kaybı ve eğitim kaybını çizin.
👉 Size geçelim: Çift inişi daha önce duymuş muydunuz?

9,26K
L2 düzenlenmesi hakkında bunu çok az kişi biliyor:
(İpucu: bu sadece bir düzenleme tekniği değildir)
Çoğu model, L2 Regularizasyonu'nu sadece bir amaçla kullanmayı planlar:
↳ Aşırı uyumu azalt.
Ancak, L2 düzenlenmesi çoklu kollineerlik için harika bir çözümdür.
Çok doğrusal yaklaşım şu durumlarda ortaya çıkar:
→ İki (veya daha fazla) özellik yüksek derecede korelasyonludur, YA DA,
→ İki (veya daha fazla) özellik başka bir özelliği tahmin edebilir.
L2 düzenlileştirmenin çokkollineerliği nasıl ele aldığını anlamak için, iki özellikli ve bağımlı değişkeni (y) olan bir veri seti düşünün:
→ ÖzellikA
→ featureB → featureA ile yüksek korelasyonludur.
→ y = featureA ve featureB'nin doğrusal bir kombinasyonu.
Kesişme terimi göz ardı edilirsek, doğrusal modelimiz iki parametreye (θ₁, θ₂) sahip olur.
Amaç, karelerin kalıntı toplamını (RSS) en aza indiren belirli parametreleri bulmaktır.
O halde, şunu yapalım ↓
1. (θ₁, θ₂) parametrelerinin birçok farklı kombinasyonu için RSS değerini çizeceğiz. Bu, 3D bir grafik oluşturacaktır:
→ x-ekseni → θ₁
→ y ekseni → θ₂
→ z-ekseni → RSS değeri
2. RSS değerini en aza indiren (θ₁, θ₂) kombinasyonunu görsel olarak belirleyeceğiz.
L2 cezası olmadan, aşağıdaki resimde ilk grafik ortaya çıkıyor.
Bir şey fark ettin mi?
3D arsa bir vadiye sahip.
RSS'nin minimum olduğu birden fazla parametre değeri kombinasyonu (θ₁, θ₂) vardır.
L2 cezasıyla birlikte, aşağıdaki görselde ikinci grafik ortaya çıkıyor.
Bu sefer farklı bir şey fark ettiniz mi?
L2 düzenleme kullanmak, daha önce gördüğümüz vadiyi ortadan kaldırdı.
Bu, RSS hatasına küresel bir minimum sağlar.
Ve işte bu şekilde L2 düzenleme çoklu kollineerliği ortadan kaldırmamıza yardımcı oldu.
👉 Size kalmış: L2 düzenlenmesi hakkında bunu biliyor muydunuz?

33,71K
En İyiler
Sıralama
Takip Listesi

