Tangga Sigmoid Saya menggali referensi setelah membaca artikel Dwarkesh yang membuat saya cukup khawatir. Dalam postingan itu dia menyebutkan: "Toby Ord memiliki postingan yang bagus di mana dia dengan cerdik menghubungkan titik-titik antara grafik benchmark seri o yang berbeda, yang menyarankan "kami membutuhkan sesuatu seperti peningkatan 1.000.000x dari total komputasi RL untuk memberikan dorongan yang mirip dengan level GPT"." Ini membuatnya terdengar seperti hal-hal akan terhenti. Toby mengatakan dua hal yang membuat saya khawatir: 1. "Kami telah melihat keuntungan yang mengesankan, tetapi ini hanya layak ketika memulai dari basis yang begitu rendah. Kami telah mencapai titik di mana terlalu mahal untuk melangkah lebih jauh." 2. "Sekarang pelatihan RL mendekati batas efektifnya, kita mungkin telah kehilangan kemampuan untuk secara efektif mengubah lebih banyak komputasi menjadi lebih banyak kecerdasan." Saya bertanya seberapa sah klaim ini dan apa kasus banteng yang berlawanan untuk meningkatkan RL. Seorang teman baik berkata: "Ya, jika Anda terus menskalakan komputasi RL secara naif, itu akan menskalakan dengan buruk. Tapi kita seharusnya tidak melakukan itu! Itu sebabnya ada begitu banyak perusahaan RL env. Pendekatan yang lebih baik adalah menskalakan ke lingkungan yang lebih baru dan lebih sulit. " Setelah merenungkan sedikit, saya menemukan cara untuk mengompresi ini lebih lanjut menjadi: "Membayangkannya sebagai tangga adalah sigmoids untuk tugas, dunia, tujuan baru adalah cara yang paling membantu untuk berpikir tentang bagaimana itu dapat terus berjalan untuk sementara waktu."