Vay canına... MIT'in bu makalesi, modellerin tamamen takılıp 🤯 kaldıklarında kendilerine nasıl akıl yürütmeyi öğrendiklerini sessizce açıklıyor Temel fikir aldatıcı derecede basittir: Akıl yürütme başarısız olur çünkü öğrenmenin tutunacak hiçbir şeyi yoktur. Bir modelin başarı oranı sıfıra yaklaştığında, pekiştirme öğrenme çalışmayı durdurur. Ödül sinyali yok. Eğim yok. Hiçbir iyileşme yok. Model "akıl yürütmede kötü" değil — öğrenilebilirliğin sınırının ötesinde sıkışıp kalmış. Bu makale sorunu yeniden çerçeveliyor. "Modelin daha zor sorunları nasıl çözmesini sağlarız?" diye sormak yerine. Soruyorlar: "Bir model, öğrenebileceği sorunları nasıl yaratır?" İşte SOAR burada devreye giriyor. SOAR, tek bir önceden eğitilmiş modeli iki role ayırır: • Son derece zor hedef problemleri denemek isteyen bir öğrenci • Öğrenci için yeni eğitim sorunları yaratan bir öğretmen Ama kısıtlama acımasız. Öğretmen asla zeki sorular, çeşitlilik veya gerçekçilik için ödüllendirilmez. Sadece öğrencinin performansı sabit bir gerçek değerlendirme problemi setinde iyileşirse ödüllendirilir. Hiç iyileşme yok mu? Ödül yok. Bu durum dinamikleri tamamen değiştirir. ...