Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

will brown
@primeintellect peretasan hadiah
will brown memposting ulang
Resep untuk pasca-melatih Qwen3 1.7B ke dalam model DeepResearch
Apa artinya sesuatu yang kecil berpikir secara mendalam? Temui Lucy, Qwen3-1.7B pasca-terlatih sebagai model DeepResearch berdasarkan verifikator @willccbb.
Hadiah Berbasis Aturan Utama:
- Kebenaran jawaban
Kami memeriksa apakah respons akhir secara harfiah berisi jawaban kebenaran dasar. Kecocokan substring ini murah dan menghindari memanggil juri LLM yang lebih besar.
- Rasio kunjungan/pencarian
Jika agen mengunjungi setidaknya halaman sebanyak yang mengeluarkan kueri pencarian, agen akan menerima ((visit_search_ratio - 1) / 4) ** 0,25. Jika mencari lebih banyak daripada yang dikunjungi, skornya adalah -0,5.
Format / Hadiah Anti Peretasan Hadiah:
- Keberhasilan eksekusi alat
Setiap panggilan API yang dikembalikan tanpa kesalahan dihitung. Hadiahnya adalah (successful_calls * unique_tools_used) / total_call_attempts.
- Efisiensi berpikir
Penalti skew-normal yang berpusat pada 70 token mencegah rantai pemikiran tanpa akhir antara pemanggilan alat sambil tetap memungkinkan token yang cukup untuk perencanaan.
Beginilah cara Qwen3 1.7B belajar mencari, mengunjungi, dan mensintesis informasi. Model kecil juga dapat melakukan penelitian mendalam!
38,82K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal