GRPO v2 depomu yayınlamak: nano-grpo-akıl yürütme-spor salonu İki büyük değişiklik (1) bu, grpo eğitim yığınını yalnızca pytorch/çok basit python kodundan tamamen uygular - ancak şimdi vLLM, liger çekirdeği ve modelleri eğitmeyi çok daha hızlı hale getiren diğer optimizasyonları kullanacak şekilde genişletilmiştir (2) Akıl yürütme spor salonu deposunun üzerine inşa edilmiştir - ve yalnızca bu akıl yürütme ortamlarında eğitim ve değerlendirme yapmak için oluşturulmuştur İşlerin nasıl yürüdüğüne dair iyi bir sezgi elde etmek için sıfırdan bir şeyler yazmayı gerçekten seviyorum ve ayrıca araştırma ilgi alanlarımın çoğu eğitim sürecinde tuhaf/küçük şeyler yapmayı içeriyor ve bunu daha basit kodlarla yapmayı çok daha kolay buluyorum Önceki depom da aynı niyetle oluşturulmuştu - ancak nihayetinde basit tutmak için gerçekten herhangi bir optimizasyonum yoktu - bu nedenle bir şeyleri değiştirmek son derece kolay olsa da, daha ciddi eğitim çalışmaları için çok yavaş ve pratik değildi birçok insan gibi ben de modellerin birden fazla ortamda nasıl öğrenebileceğiyle daha fazla ilgilenmeye başladım - akıl yürütme spor salonu, bunu denemek için güzel bir standartlaştırılmış görev seti sağlar. Repo, farklı akıl yürütme görevlerini karıştırmayı, bazılarında eğitim almayı, bazılarında değerlendirmeyi kolaylaştırır Benim için bu, fikirleri test etmek için hızlı ama basit bir sanal alana sahip olmakla ilgili. Diğerleri için GRPO/VLLM/Liger'in pratikte nasıl çalıştığını anlamak veya kendi deneyleriniz için bir başlangıç noktası olarak yararlı olabilir İşte ilk çalıştırma - leg_counting + family_relationships üzerinde eğitim, bunlar + coin_flip üzerinde değerlendirme Tüm değerlendirmeler, problem başına 5 tamamlama için olasılıksal pass@1 ile yapılır, elbette yine de gürültülüdür. Bacak sayısı +%20 performans, aile ilişkisi + %35, yazı tura (+%8? Belki sadece gürültü?) Aşağıdaki Github bağlantısı