DeepSeek baru saja melakukan jenis peningkatan yang dipura-pura dimiliki oleh setiap model penalaran. Alih-alih membuang rantai pemikiran yang panjang dan berharap itu masuk akal, DeepSeek Math V2 menjalankan interogasi penuh dengan logikanya sendiri. Ia membangun bukti, menyerangnya, memeriksa serangan, memeriksa pemeriksa, menambal kekurangan, dan memutar sampai tidak bisa mematahkan dirinya sendiri lagi. Ide tunggal itu mengubah kinerjanya sepenuhnya. Inilah yang dihasilkan oleh tingkat pengawasan diri itu: • Kinerja tingkat emas pada IMO 2025 • Kinerja tingkat emas pada CMO 2024 • 118/120 pada Putnam 2024 skor tertinggi yang dilaporkan • Hasil yang lebih baik daripada GPT-5 Thinking dan Gemini 2.5 Pro pada kategori tersulit Rahasianya bukan skala. Ini adalah arsitektur di sekitar model: — verifikator yang berburu kesenjangan logis — meta-verifier yang mempertanyakan verifikator — generator bukti yang dikondisikan untuk menghindari penalaran yang lemah — loop yang memaksa setiap bagian sistem menjadi lebih tajam Prosesnya berjalan seperti penggiling: - Menghasilkan bukti - Uji - Uji penguji - Perbaiki penalaran -Mengulangi Mereka bertujuan untuk masalah nyata dalam penalaran matematis: sebuah model dapat mencapai jawaban yang benar untuk alasan yang salah. Jadi DeepSeek melatih verifikator yang menilai penalaran, bukan hasil....