Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Berikut adalah Ritual Research Digest minggu ini, buletin yang mencakup yang terbaru di dunia LLM dan persimpangan Crypto x AI.
Dengan ratusan makalah yang diterbitkan setiap minggu, tidak mungkin mengikuti perkembangan terbaru. Kami melakukan pembacaan sehingga Anda tidak perlu melakukannya.

Think-at-Hard: Iterasi Laten Selektif untuk Meningkatkan Model Bahasa Penalaran
Iterasi laten dinamis itu sulit: membutuhkan konteks penuh, tujuan adaptif, penggunaan kembali parameter, tetapi kopling kualitas kebijakan menyebabkan ketidakstabilan pelatihan.


Karya ini memperkenalkan TaH, pemikiran laten dinamis yang hanya mengulangi hard token dengan mengembangkan lengkungan model khusus dan metode pelatihan yang stabil, secara selektif menerapkan iterasi laten.
Menyempurnakan dari Qwen3-0.6/1.7B-Base, TaH mencapai +4% lebih dari 5 tolok ukur penalaran.

P1: Menguasai Olimpiade Fisika dengan Pembelajaran Penguatan
Karya ini memperkenalkan P1, keluarga model penalaran fisika OSS. Mereka mengintegrasikan penskalaan waktu pelatihan dan waktu pengujian, memastikan kemampuan penalaran yang lebih kuat yang diterapkan secara adaptif pada inferensi.

Model P1 dilatih murni melalui pasca-pelatihan RL pada LM dasar dalam kerangka kerja RL multi-tahap. Untuk waktu pengujian, mereka menggabungkan model P1 dengan kerangka kerja agen PhysicsMinions.
Model mereka P1-235B-A22B mencapai kinerja medali Emas pada IPhO 2025.

MiroThinker: Mendorong Batas Kinerja Agen Riset Sumber Terbuka melalui Model, Konteks, dan Penskalaan Interaktif
Makalah ini memperkenalkan agen penelitian yang mendorong kinerja pada 3 dimensi: ukuran model, panjang konteks, & kedalaman interaksi.

Untuk mempertahankan proses penalaran yang mendalam, model ini dilengkapi dengan jendela konteks 256K dan hingga 600 panggilan alat per tugas.
MiroThinker v1.0, dilengkapi dengan agen ReAct sederhana, mencapai kinerja SOTA di antara agen penelitian sumber terbuka.


Apa yang diperlukan untuk menjadi agen riset AI yang baik? Mempelajari Peran Keragaman Ide
Makalah ini mengusulkan metode untuk mengukur dan mengontrol keragaman ide agen. Pilihan perancah agen secara signifikan mempengaruhi keragaman ide.


Melalui desain eksperimental terkontrol, mereka membangun hubungan kausal, menunjukkan bahwa peningkatan keragaman ide mengarah pada peningkatan kinerja pada tugas MLE-bench. Mereka juga membangun ketahanan ketika dievaluasi dengan metrik kinerja alternatif.

DR Tulu: Pembelajaran Penguatan dengan Rubrik yang Berkembang untuk Penelitian Mendalam
Makalah ini melatih penelitian mendalam Tulu (DR Tulu-8B) yang dilatih untuk tugas-tugas penelitian mendalam terbuka dan panjang.

Untuk mengatasi verifikasi dalam tugas berdurasi panjang, DR-Tulu disempurnakan pada data pengguna berkualitas tinggi, dan kemudian dilatih melalui RL dengan rubrik yang berkembang (RLER), di mana rubrik berevolusi bersama dengan model kebijakan selama pelatihan. Mereka memperoleh hasil yang lebih baik daripada model 8-32 terbuka terkuat.

Ikuti kami @ritualdigest untuk informasi lebih lanjut tentang semua hal tentang penelitian crypto x AI, dan
@ritualnet untuk mempelajari lebih lanjut tentang apa yang dibangun Ritual.
3K
Teratas
Peringkat
Favorit

