Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wow! DeepSeekMath-V2
Arsitektur Generator-Verifier lagi!
... Menuju penalaran matematis yang dapat diverifikasi sendiri, kami menyelidiki bagaimana melatih verifikator berbasis LLM yang akurat dan setia untuk pembuktian teorema. Kami kemudian melatih generator bukti menggunakan verifikator sebagai model hadiah, dan memberi insentif kepada generator untuk mengidentifikasi dan menyelesaikan masalah sebanyak mungkin dalam bukti mereka sendiri sebelum menyelesaikannya. Untuk mempertahankan kesenjangan verifikasi generasi saat generator menjadi lebih kuat, kami mengusulkan untuk menskalakan komputasi verifikasi untuk secara otomatis memberi label pada bukti baru yang sulit diverifikasi, membuat data pelatihan untuk lebih meningkatkan verifikat. Model kami yang dihasilkan, DeepSeekMath-V2, menunjukkan kemampuan pembuktian teorema yang kuat, mencapai skor tingkat emas pada IMO 2025 dan CMO 2024 dan 118/120 yang hampir sempurna pada Putnam 2024 dengan komputasi waktu pengujian yang diskalakan. Meskipun masih banyak pekerjaan yang tersisa, hasil ini menunjukkan bahwa penalaran matematis yang dapat diverifikasi sendiri adalah arah penelitian yang layak yang dapat membantu mengembangkan sistem AI matematika yang lebih mumpuni.

Teratas
Peringkat
Favorit

