Yeni blog yazısı. Son zamanlarda, gerçek hayatta tek bir örnek almak ön eğitimden çok daha fazla hesaplama gerektirdiğinden bahsediyor. Ama bu sorunun sadece yarısı bu. Gerçek hayatta ise, o pahalı örnek genellikle çok daha az bit veriyor. Ve bu, RLVR'nin ne kadar iyi ölçekleneceği üzerinde etkileri var, ayrıca kendi kendine oynama ve müfredat öğrenmenin RL için neden bu kadar faydalı olduğunu, RL'li modellerin neden tuhaf şekilde keskin olduğunu ve insanların farklı neler yaptığını nasıl düşünebileceğimizi anlamamıza yardımcı oluyor. Aşağıdaki bağlantı.