Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Prompt AI ini berpikir seperti orang yang mengelola $124 miliar.
Ini adalah sistem pengambilan keputusan "Prinsip" Ray Dalio yang berubah menjadi prompt besar.
Saya menggunakannya untuk mengevaluasi 15 ide startup. Terbunuh 13. 2 orang yang selamat menjadi karya terbaik saya.
Berikut prompt yang bisa Anda curi ↓

22
Astaga... makalah dari MIT ini diam-diam menjelaskan bagaimana model dapat mengajari diri mereka sendiri untuk bernalar ketika mereka benar-benar terjebak 🤯
Ide intinya sangat sederhana:
Penalaran gagal karena belajar tidak memiliki apa-apa untuk melekat.
Ketika tingkat keberhasilan model turun mendekati nol, pembelajaran penguatan berhenti bekerja. Tidak ada sinyal hadiah. Tidak ada gradien. Tidak ada perbaikan. Model ini tidak "buruk dalam penalaran" - itu terjebak di luar tepi kemampuan belajar.
Makalah ini membingkai ulang masalah.
Alih-alih bertanya "Bagaimana kita membuat model memecahkan masalah yang lebih sulit?"
Mereka bertanya: "Bagaimana model menciptakan masalah yang dapat dipelajarinya?"
Di situlah SOAR masuk.
SOAR membagi satu model yang telah dilatih sebelumnya menjadi dua peran:
• Seorang siswa yang mencoba masalah target yang sangat keras
• Seorang guru yang menghasilkan masalah pelatihan baru bagi siswa
Tapi kendalanya brutal.
Guru tidak pernah dihargai untuk pertanyaan cerdas, keragaman, atau realisme.
Ini hanya dihargai jika kinerja siswa meningkat pada serangkaian masalah evaluasi nyata yang tetap.
Tidak ada perbaikan? Tidak ada hadiah.
Ini mengubah dinamika sepenuhnya.
Guru tidak mengoptimalkan estetika atau kebaruan.
Ini mengoptimalkan kemajuan pembelajaran.
Seiring waktu, guru menemukan sesuatu yang biasanya dikodekan manusia secara manual:
Masalah menengah.
Versi tugas target yang tidak terpecahkan.
Bukan salinan yang dicairkan.
Tetapi masalah yang berada tepat di dalam batas kemampuan siswa saat ini - cukup dekat untuk dipelajari, cukup jauh untuk penting.
Inilah bagian yang mengejutkan.
Masalah yang dihasilkan tidak memerlukan jawaban yang benar.
Mereka bahkan tidak perlu diselesaikan oleh guru.
Yang penting adalah struktur.
Jika pertanyaan tersebut memaksa siswa untuk bernalar ke arah yang benar, sinyal gradien muncul bahkan tanpa pengawasan yang sempurna. Belajar terjadi melalui perjuangan, bukan peniruan.
Itu sebabnya SOAR bekerja di mana RL langsung gagal.
Alih-alih menabrak tebing hadiah, siswa itu menaiki tangga yang dibantu dibangunnya.
Eksperimen membuat ini sangat jelas.
Pada tolok ukur di mana model dimulai dari nol mutlak — secara harfiah 0 keberhasilan — metode standar datar. Dengan SOAR, kinerja mulai meningkat dengan mantap karena kurikulum membentuk kembali dirinya sendiri di sekitar pengetahuan internal model.
Ini adalah perubahan yang tenang tetapi radikal.
Kami biasanya berpikir penalaran dibatasi oleh ukuran model, skala data, atau komputasi pelatihan.
Makalah ini menyarankan kemacetan lain sepenuhnya:
Lingkungan belajar yang buruk.
Jika model dapat menghasilkan batu loncatan mereka sendiri, banyak "batas penalaran" berhenti menjadi batas sama sekali.
Tidak ada arsitektur baru.
Tidak ada label manusia tambahan.
Tidak ada model yang lebih besar.
Hanya insentif yang lebih baik untuk bagaimana pembelajaran terungkap.
Implikasi yang tidak nyaman adalah ini:
Dataran tinggi penalaran bukanlah hal yang mendasar.
Mereka ditimbulkan sendiri.
Dan jalan ke depan tidak memaksa model untuk berpikir lebih keras, tetapi membiarkan mereka memutuskan apa yang harus dipelajari selanjutnya.

21
Teratas
Peringkat
Favorit
