Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami secara tidak sengaja membangun sistem AI yang meningkatkan diri sendiri. Makalah dari University of Oxford ini membuktikannya.
Kebanyakan orang berasumsi bahwa peningkatan model berasal dari arsitektur yang lebih besar atau alur pembelajaran penguatan yang dirancang dengan cermat.
Karya ini menunjukkan sesuatu yang lebih halus dan lebih meresahkan.
Jika Anda menyebarkan model, membiarkan pengguna berinteraksi dengannya, memfilter kegagalan, dan menyempurnakan hanya pada pelacakan yang berhasil, model mulai meningkatkan kemampuan perencanaannya sendiri.
Tidak ada hadiah eksplisit, kurikulum buatan tangan, dan tidak ada perencana eksternal.
Hanya iterasi.
Penulis menyebut penyebaran berulang ini, dan mereka mengujinya di lingkungan perencanaan terkontrol seperti Blocksworld, Rovers, dan Sokoban.
Pengaturannya sederhana:
1. Terapkan LLM pada tugas perencanaan
2. Simpan hanya rencana yang benar-benar berhasil
3. Menyempurnakan versi berikutnya pada jejak yang valid tersebut
Ulangi
Setelah hanya lima generasi, kinerja perencanaan meningkat lebih dari dua kali lipat di semua domain. Dalam beberapa kasus, itu meningkat 4 hingga 5x. Yang lebih menarik lagi, generasi selanjutnya menemukan rencana yang jauh lebih panjang daripada model dasar, menunjukkan generalisasi di luar distribusi yang nyata, bukan hanya trik pemformatan atau kepatuhan yang cepat.
Berikut adalah wawasan kuncinya.
Makalah ini membuktikan bahwa proses ini secara matematis setara dengan pembelajaran penguatan dengan sinyal hadiah biner.
Tetapi fungsi hadiah tidak pernah dituliskan.
...

Teratas
Peringkat
Favorit
