Bunu yorumlamak şudur: Antrenman sonrası ağırlıklarınız ön antrenman sırasında gördüğü tüm görevlerden eşit mesafede oluyor (model tüm görevleri görmüş olduğu için onları kendine çekmiş). Yani bu yöntemin yaptığı tek şey, ağırlıkları bozmak ve hangi bozulmaların ağı göreve özgü ağırlıklara yaklaştırdığını görmek. Gerçekten ucuz bir Lora gibi Bu aynı zamanda eğitimden sonra bilgi eklemediği, sadece ön eğitim dağılımını oyduğu gözlemiyle bağlantılıdır
Yulu Gan
Yulu Gan13 Mar 23:41
Sadece LLM'lere Gauss gürültüsü eklemek (tek adım—iterasyon yok, öğrenme hızı yok, gradyan yok) ve onları birleştirmek, matematiksel akıl yürütme, kodlama, yazma ve kimya görevlerinde standart GRPO/PPO ile karşılaştırılabilir veya hatta daha iyi performans elde edebilir. Bu algoritmaya RandOpt diyoruz. Bunun sadece belirli modellerle sınırlı olmadığını doğrulamak için Qwen, Llama, OLMo3 ve VLM'lerde test ettik. Bunun arkasında ne var? Önceden eğitilmiş LLM'lerin çevresindeki Gauss arama mahallesinde çeşitli görev uzmanlarının yoğun şekilde dağınık olduğunu görüyoruz — bu rejime Sinir Çalılıkları adını veriyoruz. Makale: Kod: Web Sitesi:
Ağırlıkları rahatsız etmek, yüksek sıcaklıkta rastgele dağıtımlara benziyor. Bunun yinelemeli olabileceğini düşünüyorum (örneğin Grpo) Büyük yarıçaplı perturba ağırlıkları -> daha iyi performans göstericileri seçer -> yarıçapı azaltmaya devam eder bu *görev doğruluğunu artırmalı* Bunu @yule_gan denedin?
44