Model yang kuat bisa menjadi lebih buruk dalam mempelajari hal-hal yang sulit karena menjadi lebih percaya diri. Karena jawabannya yang salah didorong begitu rendah sehingga gradien pada dasarnya menghilang WMSS membalikkan lingkaran: Anda melatih model kuat terhadap pos pemeriksannya sendiri yang lebih lemah sebelumnya, bukan hanya prediksinya saat ini pos pemeriksaan yang lemah masih memberikan probabilitas yang tidak sepele untuk jawaban yang masuk akal tetapi salah. Pelatihan pada distribusi yang lebih lembut itu memaksa model yang kuat untuk terus memisahkan yang benar dari yang hampir benar, alih-alih memoles apa yang sudah diyakininya Makalah ini melaporkan keuntungan yang berarti pada matematika + pengkodean, dengan peningkatan yang lebih besar pada set yang lebih sulit. Tapi itu diuji sekitar parameter 4b hingga 8b, bukan skala batas (jadi saya tidak memperlakukan ini sebagai penyelesaian) Implikasi yang kurang dibahas: Setiap laboratorium serius sudah memiliki kuburan pos pemeriksaan menengah dari perjalanan sebelumnya .. Jika pembelajaran yang didorong oleh lemah bertahan di 70B+, pos pemeriksaan yang "terbuang" menjadi sumber pelatihan yang sudah Anda duduki model yang kuat dataran tinggi ketika mereka berhenti meragukan diri mereka sendiri. Salah satu cara praktis ke depan mungkin dengan membuat mereka berdebat dengan diri 👀 mereka di masa lalu Tautan ke kertas: arxiv. org/abs/2602.08222