Sigmoidlerden Oluşan Merdiven Beni oldukça endişelendiren Dwarkesh yazısını okuduktan sonra bir referansa daldım. Gönderide şöyle belirtiyor: "Toby Ord'un farklı o-serisi kıyaslama grafikleri arasındaki noktaları zekice bağladığı harika bir gönderi var; bu gönderi, "GPT seviyesine benzer bir artış sağlamak için toplam RL hesaplamasının 1.000.000 kat ölçeklendirilmesine ihtiyacımız var" diye önerildi." Bu, işlerin duracakmış gibi görünmesini sağlıyor. Toby, beni endişelendiren iki şeyi söylüyor: 1. "Etkileyici kazanımlar gördük, ancak bunlar sadece bu kadar düşük bir tabandan başladığında uygulanabilirdi. Daha ileri gitmek için çok pahalı hale geldiğimiz bir noktaya geldik." 2. "Şimdi RL eğitimi etkin sınırına yaklaşırken, daha fazla hesaplamayı daha fazla zekaya dönüştürme yeteneğimizi kaybetmiş olabiliriz." Bu iddianın ne kadar meşru olduğunu ve RL'nin ölçeklendirilmesi için karşı tarafın ne olduğunu sordum. İyi bir arkadaşım şöyle dedi: "Evet, eğer gerçek zamanlı hesaplamayı safça ölçeklendirmeye devam ederseniz, kötü ölçeklenir. Ama bunu yapmamalıyız! Bu yüzden bu kadar çok gerçek yaşam alanı çevre şirketi var. Daha iyi bir yaklaşım, daha yeni ve zor ortamlara ölçeklendirmektir. " Biraz düşündükten sonra bunu daha da sıkıştırmanın bir yolunu buldum: "Yeni görevler, dünyalar, hedefler için bir merdiven olarak hayal etmek, bir süre nasıl devam edebileceğini düşünmenin en faydalı yoludur."