Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Popüler bir LLM röportaj sorusu:
"LLM'lerin eğitiminin 4 aşamasını sıfırdan açıklayın."
(aşağıda adım adım açıklama)

LLM'leri sıfırdan inşa etmenin temel olarak 4 aşaması vardır:
- Ön Eğitim
- Talimat ince ayarı
- Tercih ince ayarlama
- Akıl yürütme ince ayarlama
Her birini anlayalım!
0️⃣ Rastgele başlatılmış LLM
Bu noktada model hiçbir şey bilmiyor.
Ona "LLM nedir?" diye sorarsınız ve "Peter Hand ve merhaba 448Sn" gibi anlamsız şeyler alırsınız.
Henüz herhangi bir veri görmedi ve sadece rastgele ağırlıklara sahip.
1️⃣ Ön Eğitim
Bu aşama, LLM'ye dil temellerini öğretir; onu dev korporalarda eğitip, bir sonraki tokenı tahmin eder.
Bu şekilde, dilbilgisini, dünya gerçeklerini vs. emser.
Ama sohbette iyi değil çünkü sorulduğunda sadece mesajı devam ettiriyor.
2️⃣ Talimat ince ayarı
Konuşma şekline sahip olmak için, Talimat-yanıt çiftleri üzerinde eğitim alarak Öğretim İnce Ayarı yapıyoruz. Bu, promptları takip etmeyi ve yanıtları nasıl biçimlendireceğini öğrenmesine yardımcı olur.
Şimdi şöyle yapabilir:
- Soruları yanıtlamak
- İçeriği özetle
- Kod yazmak vb.
Şu noktada muhtemelen:
- Tüm ham internet arşivini ve bilgisini kullandı.
- İnsan etiketli komut yanıt verisi için bütçe.
Peki modeli daha da geliştirmek için ne yapabiliriz?
Takviye Öğrenme (RL) alanına giriyoruz.
3️⃣ Tercih ince ayar (PFT)
ChatGPT'de şu soruyu soran bir ekran görmüş olmalısınız: Hangi yanıtı tercih edersiniz?
Bu sadece geri bildirim için değil, değerli insan tercihi verisi.
OpenAI, bu özelliği tercih ince ayarlama kullanarak modellerini ince ayarlar yapmak için kullanır.
PFT'de:
Kullanıcı, insan tercihi verisi oluşturmak için iki yanıt arasında seçim yapar.
Bir ödül modeli insan tercihini tahmin etmek için eğitilir ve LLM gerçek yaşam alanıyla güncellenir.
Yukarıdaki süreç RLHF (İnsan Geri Bildirimi ile Güçlendirme Öğrenme) olarak adlandırılır ve model ağırlıklarını güncellemek için kullanılan algoritma PPO olarak adlandırılır.
LLM'ye "doğru" cevap olmasa bile insanlarla hizalanmayı öğretiyor.
Ama LLM'yi daha da geliştirebiliriz.
4️⃣ Akıl yürütme ince ayar
Akıl yürütme görevlerinde (matematik, mantık vb.) genellikle sadece bir doğru yanıt ve cevabı bulmak için tanımlanmış bir dizi adım vardır.
Yani insan tercihlerine ihtiyacımız yok ve doğruluğu sinyal olarak kullanabiliriz.
Adım -ları:
- Model, bir prompta cevap üretir.
- Cevap, bilinen doğru cevaba göre karşılaştırılır.
- Doğruluğa göre ödül atayıyoruz.
Buna Doğrulanabilir Ödüllerle Pekiştirici Öğrenme denir.
DeepSeek'in GRPO'su popüler bir tekniktir.
Bunlar, bir LLM'yi sıfırdan eğitmenin 4 aşamasıydı.
- Rastgele başlatılmış bir modelle başlayın.
- Büyük ölçekli korporatlar üzerinde önceden eğitim ver.
- Komutları takip etmesi için komut ince ayarını kullanın.
- Yanıtları keskinleştirmek için tercih ve akıl yürütme ince ayarları kullanın.
👉 Size sorulur: LLM'nizi nasıl daha da geliştirirsiniz?




12,59K
En İyiler
Sıralama
Takip Listesi

