Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Astaga... makalah dari MIT ini diam-diam menjelaskan bagaimana model dapat mengajari diri mereka sendiri untuk bernalar ketika mereka benar-benar terjebak 🤯
Ide intinya sangat sederhana:
Penalaran gagal karena belajar tidak memiliki apa-apa untuk melekat.
Ketika tingkat keberhasilan model turun mendekati nol, pembelajaran penguatan berhenti bekerja. Tidak ada sinyal hadiah. Tidak ada gradien. Tidak ada perbaikan. Model ini tidak "buruk dalam penalaran" - itu terjebak di luar tepi kemampuan belajar.
Makalah ini membingkai ulang masalah.
Alih-alih bertanya "Bagaimana kita membuat model memecahkan masalah yang lebih sulit?"
Mereka bertanya: "Bagaimana model menciptakan masalah yang dapat dipelajarinya?"
Di situlah SOAR masuk.
SOAR membagi satu model yang telah dilatih sebelumnya menjadi dua peran:
• Seorang siswa yang mencoba masalah target yang sangat keras
• Seorang guru yang menghasilkan masalah pelatihan baru bagi siswa
Tapi kendalanya brutal.
Guru tidak pernah dihargai untuk pertanyaan cerdas, keragaman, atau realisme.
Ini hanya dihargai jika kinerja siswa meningkat pada serangkaian masalah evaluasi nyata yang tetap.
Tidak ada perbaikan? Tidak ada hadiah.
Ini mengubah dinamika sepenuhnya.
...

Teratas
Peringkat
Favorit
