nanochat artık GPT-2 sınıfı LLM'yi 100 <<$ (~$73, tek bir 8XH100 düğümünde 3 saat) karşılığında eğitebiliyor. GPT-2 sadece benim favori LLM'im çünkü LLM yığını ilk kez tanınabilir şekilde modern bir şekilde bir araya geliyor. Bu yüzden bir modeli GPT-2 kapasitesine uygun şekilde eğitmek benim için biraz tuhaf ve kalıcı bir takıntı haline geldi ama çok daha ucuza, ~7 yıllık ilerleme avantajıyla. Özellikle, bugün 100 <<$'a bir tane eğitmenin mümkün olacağını düşünüyordum. Başlangıçta 2019'da, GPT-2 OpenAI tarafından 32 TPU v3 çipinde 168 saat (7 gün) süreyle, o zamanlar saat başına 8$/TPUv3 ile eğitildi ve toplamda yaklaşık $43K maliyetti. 0.256525 CORE puanına ulaşır; bu, DCLM makalesinde ARC/MMLU gibi 22 değerlendirme üzerinde tanıtılan bir topluluk ölçütü. Son birkaç iyileştirmenin nanochat'e birleşmesiyle (çoğu modlu nanogpt repo'dan kaynaklanıyor), artık tek bir 8XH100 düğümünde 3.04 saatte (~$73) daha yüksek bir CORE puanına ulaşabiliyorum. Bu, 7 yıl içinde 600 kat maliyet azalması anlamına geliyor; yani GPT-2'nin eğitim maliyeti her yıl yaklaşık 2,5 kat azalıyor. Bunun muhtemelen hafife alındığını düşünüyorum çünkü hâlâ nispeten düzenli olarak daha fazla gelişme buluyorum ve denemem gereken daha fazla fikir birikmiş durumda. Burada optimizasyonların detaylarını ve nasıl yeniden üretileceğine dair ipuçlarını içeren daha uzun bir yazı burada: Modded-nanogpt'den ilham alarak, "GPT-2'ye zaman" için bir liderlik tablosu da oluşturdum; bu ilk "Jan29" modeli saat 3.04'te #1 numaralı giriş olarak yer alıyor. Bunu daha fazla anlatmak eğlenceli olacak ve yardımı memnuniyetle karşılarım! Umarım nanochat, prototip fikirleri, eğlenmek ve tabii ki öğrenmek için çok güzel/temiz ve ayarlı deneysel bir LLM kostümü haline gelebilir. Kutudan çıktığı gibi işe yarayan ve hemen kazanç sağlayan en büyük iyileştirmeler şunlardı: 1) Flash Attention 3 çekirdekleri (daha hızlı ve window_size kwarg'ın dönüşümlü dikkat desenleri almasına izin veriyor), Muon optimizatoru (~1 gün silmeye çalıştım ve sadece AdamW kullandım, başaramadım), kalıntı yollar ve öğrenilebilir skaler tarafından geçilen bağlantıları atlamalar, ve değer gömmeleri. Üst üste gelen birçok küçük şey vardı. Görsel: Mevcut nanochat model mini dizisi için ölçeklendirme yasalarını türetmekten yarı ilgili göz tatlısı, güzel ve tatmin edici!