Sedikit penemuan liar di makalah baru oleh Google ini. Model penalaran mengungguli model yang disetel instruksi pada tugas yang kompleks. Penjelasan umum adalah bahwa perhitungan waktu pengujian yang diperpanjang terjadi melalui rantai pemikiran yang lebih panjang. Tetapi penelitian baru ini mengungkapkan sesuatu yang lebih dalam. Ini menunjukkan bahwa penalaran yang ditingkatkan muncul dari simulasi implisit interaksi seperti multi-agen dalam model itu sendiri. Para peneliti menyebutnya sebagai "masyarakat pemikiran." Melalui analisis kuantitatif jejak penalaran dari DeepSeek-R1 dan QwQ-32B, mereka menemukan model ini menunjukkan keragaman perspektif yang jauh lebih besar daripada model dasar. Mereka mengaktifkan konflik yang lebih luas antara kepribadian heterogen dan fitur terkait keahlian selama penalaran. Seperti apa ini? Perilaku percakapan termasuk urutan menjawab pertanyaan, pergeseran perspektif, konflik antar sudut pandang, dan rekonsiliasi ketidaksepakatan. Model ini berdebat dengan dirinya sendiri, mengadopsi peran sosio-emosional yang berbeda yang mencirikan percakapan bolak-balik yang tajam. DeepSeek-R1 menunjukkan lebih banyak jawaban pertanyaan, pergeseran perspektif, dan rekonsiliasi secara signifikan dibandingkan dengan DeepSeek-V3. Pola yang sama berlaku untuk QwQ-32B versus Qwen-2.5-32B-IT. Model yang disetel instruksi menghasilkan monolog sepihak. Model penalaran menghasilkan dialog simulasi. Model penalaran yang sukses menghindari "ruang gema" yang mengarah pada jawaban yang salah. Dengan mensimulasikan ketidaksepakatan di berbagai perspektif, mereka mencegah kesesuaian dengan klaim awal yang menyesatkan. Eksperimen RL terkontrol menunjukkan bahwa model dasar secara spontan mengembangkan perilaku percakapan ketika diberi imbalan semata-mata untuk akurasi penalaran. Model yang disempurnakan dengan perancah percakapan belajar lebih cepat daripada model yang disempurnakan dengan penalaran seperti monolog, terutama selama tahap awal pelatihan. ...