Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
@meta @cornell penelitian // model bahasa, teori informasi, ilmu AI
Berikut beberapa alfa gratis:
jika kita melakukan RL terlalu lama setelah pralatihan, kita pasti akan menimpa parameter dan mulai melupakan banyak hal
dalam makalah instructGPT asli, model terbaik mereka mencampur RLHF dengan gradien pra-pelatihan untuk menghindari masalah penyimpangan model ini
namun tidak ada yang melakukan ini lagi. tentu, ini adalah satu instansiasi tertentu (pencampuran gradien) dari ide yang lebih luas (menghindari lupa) tetapi tampaknya seperti garis pemikiran yang sangat diabaikan saat kita melakukan lebih banyak langkah RL
misalnya lihat makalah ProRL baru-baru ini. mereka melakukan lebih dari 1000 langkah GRPO sekarang dengan tingkat pembelajaran yang tidak sepele dan tanpa penalti karena menyimpang dari model aslinya. Sirkuit yang dibangun di dalam model selama prapelatihan pasti mulai membusuk. dan jika tidak, mereka akan melakukannya setelah 10k atau 100k langkah RL
Saya menduga ide ini akan kembali pada akhirnya; Mereka mungkin sudah melakukan ini di laboratorium besar



51,15K
Ini tampaknya sangat penting:
benar-benar masuk akal bahwa sebuah model bisa mendapatkan emas IMO tanpa *apapun* pembelajaran penguatan, mengingat prompt yang dibuat dengan sempurna
Kami hanya tidak tahu, dan kekurangan alat untuk mencari secara efisien melalui ruang prompt. senang melihat setidaknya seseorang mencoba

Lakshya A Agrawal29 Jul 2025
Bagaimana pengoptimalan prompt dibandingkan dengan RL algos seperti GRPO?
GRPO membutuhkan 1000-an peluncuran, tetapi manusia dapat belajar dari beberapa percobaan—dengan merefleksikan apa yang berhasil dan apa yang tidak.
Temui GEPA: pengoptimal prompt reflektif yang dapat mengungguli GRPO hingga 20% dengan peluncuran 35x lebih sedikit! 🧵

38,31K
situasi hipotetis -
Saya adalah perusahaan AI yang mengurangi biaya transfer dan penyimpanan model menjadi nol. Saya dapat melayani setiap pengguna model mereka sendiri tanpa overhead
Apa yang harus saya lakukan? model khusus pengguna SFT secara langsung pada data mereka? atau RLHF pada peringkat obrolan? sesuatu yang lain?
16,58K
Otak manusia mencadangkan 40% pemrosesannya secara eksklusif untuk penglihatan. LLM modern entah bagaimana berevolusi tanpa ini sepenuhnya

jack morris29 Jul 2025
sangat mengejutkan bahwa lima belas tahun penelitian visi komputer hardcore berkontribusi ~ tidak ada apa pun terhadap AGI kecuali pengoptimal yang lebih baik
Kami masih belum memiliki model yang menjadi lebih pintar ketika kami memberi mereka mata
44,23K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal