İnce ayar konusunda ciddi bir sorunumuz var. Bugün SFT veya RL yapmaya çalışan herkes iki uçtan birine zorlanıyor: 1. "Kullanımı kolay" API'ler, eğitim süreci üzerinde neredeyse hiç kontrol sağlamazsınız. 2. Tam anlamıyla altyapı cehennemi; kontrol noktaları, ham GPU'lar, denemeler, boşta maliyetler ve bitmek bilmeyen tesisatlarla uğraşıyorsunuz. Arada çok az şey var. Bu iki kötülüğün daha az seçicisini seçmek zorunda olan birkaç takımla konuştum. Çoğu, başka seçenekleri olmadığı için altyapıyı idare edebilen insanlara çok para harcıyor. İşte farklı bir alternatif: HPC-AI ekibi, altyapı cehennemiyle uğraşmadan eğitim kodunuz üzerinde tam kontrol sağlayan ince ayar SDK'sını yeni yayınladı: • Özel SFT tarifleri alıyorsunuz • RL veya RLVR (Doğrulanabilir Ödüllerle Pekiştirici Öğrenme) • Kendi ödül fonksiyonlarınızı kullanabilirsiniz • Kendi eğitim döngülerinizi kullanabilirsiniz Altyapı tarafındaki her şeyi onlar hallediyor: • Kubernetes yapılandırmalarına hiç dokunmazsınız • Küme zamanlayıcılarına asla dokunmazsınız • GPU provisioning'e hiç dokunmazsınız • Dağıtılmış kontrol noktası tesisatına asla dokunmazsınız Bu, birçok takıma ince ayar yapılmasına olanak tanır. Artık "işe yaramayacak kadar basit" ile "o kadar karmaşık ki kabus" arasında seçim yapmak zorunda değilsin. Buradaki temel fikir çok basit: Bu model algoritma tasarımını altyapı mühendisliğinden ayırıyor. Başka bir şey daha var: Bu modelde, GPU'ları saatlik kiralamak ve boşta duran kümelerle uğraşmak yerine token başına ödeme yaparsınız.
Bunu denemek isterseniz, ekibin benimle paylaştığı bir kodla kaydolabilirsiniz (aşağıdaki bağlantıda gömülü): Bu kod, ilk eğitim işinizi yürütmeniz için size yaklaşık 1,5 milyon token (yaklaşık 1,5 milyon token) ücretsiz kupon olarak 10 dolar verir. Ve işte SDK ile birlikte GitHub Deposu: Bu gönderide benimle ortaklık kuran HPC-AI ekibine teşekkürler.
435