Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berikut adalah Ritual Research Digest minggu ini, buletin yang mencakup yang terbaru di dunia LLM dan persimpangan Crypto x AI.
Dengan ratusan makalah yang diterbitkan setiap minggu, tidak mungkin mengikuti perkembangan terbaru. Kami melakukan pembacaan sehingga Anda tidak perlu melakukannya.

Kritik-RL: Pelatihan Model Bahasa untuk Mengkritik melalui Pembelajaran Penguatan Dua Tahap
Makalah ini bertujuan untuk mengembangkan model bahasa kritikal yang tidak bergantung pada pengawasan yang lebih kuat atau fungsi penghargaan oracle selama pengujian.

Mereka mengusulkan Kritik-RL, pendekatan RL 2 tahap, pendekatan RL online berdasarkan interaksi aktor-kritikus untuk mengembangkan model kritik.
Eksperimen ekstensif menunjukkan bahwa metode ini mengungguli garis dasar, menghasilkan kinerja yang lebih baik dengan Qwen 2.5 7B.

PACR: Hadiah Keyakinan Naik Secara Progresif untuk Penalaran LLM
Pekerjaan ini menanyakan apakah pengawasan bertahap dapat diperoleh dari model. Mereka memperkenalkan PACR, sinyal intrinsik model yang padat yang mengubah pertumbuhan kepercayaan menjadi pengawasan bertahap untuk RL.



Mereka menemukan, antara lain, bahwa kenaikan kepercayaan diri yang konsisten sangat berkorelasi dengan kebenaran jawaban akhir.
Di berbagai tolok ukur penalaran, menambah RLVR dengan metode PACR meningkatkan dinamika pelatihan dan kinerja akhir.

Akhir Decoding Manual: Menuju Model Bahasa End-to-End yang Benar-benar End-to-End
Makalah ini mengusulkan AutoDeco, arsitektur yang menciptakan LM "end-to-end" yang mampu mengontrol proses decodingnya sendiri. Mereka menambah trafo dengan kepala prediksi.

Kepala AutoDeco menggunakan status tersembunyi model saat ini untuk memprediksi parameter pengambilan sampel optimal untuk token berikutnya secara dinamis.
Mereka merilis kepala AutoDeco untuk Deepseek-V3.1-Terminus, Qwen3-235B-A22B-Thinking-2507, dan GPT-OSS-120 dan memvalidasi dengan beberapa model lain.


Menskalakan penalaran laten melalui model bahasa berulang
Makalah ini bertujuan untuk mengeksplorasi perilaku penskalaan LoopLM dalam berbagai aspek. Mereka mengembangkan tujuan baru untuk melatih komputasi berulang yang efisien sambil mempertahankan kinerja puncak.

Mereka melatih dua model, parameter 1.4B dan 2.6B LoopLM pada token 7.7T yang cocok dengan kinerja transformator standar 4B dan 8B di hampir semua tolok ukur, mencapai peningkatan efisiensi parameter 2-3×.
Mereka juga mengeksplorasi alasan mengapa transformator berulang lebih baik.

Alat Decathlon: Agen Bahasa Tolok Ukur untuk Eksekusi Tugas yang Beragam, Realistis, dan Jangka Panjang
Memperkenalkan tolok ukur untuk mengevaluasi agen bahasa. TOOLATHLON didasarkan pada skenario realistis yang membutuhkan banyak aplikasi.

TOOLATHLON membutuhkan, rata-rata, 4-6 jam kerja oleh mahasiswa pascasarjana riset jurusan CS.
Soneta 4.5, GPT-5, dan Grok4 berkinerja baik. Mereka mengamati perbedaan yang signifikan antara tingkat keberhasilan Pass@3 dan Lulusˆ3, menunjukkan cakupan kemampuan tetapi masalah konsistensi.

Ikuti kami @ritualdigest untuk informasi lebih lanjut tentang semua hal tentang penelitian crypto x AI, dan
@ritualnet untuk mempelajari lebih lanjut tentang apa yang dibangun Ritual.
3,92K
Teratas
Peringkat
Favorit

