Secara intuitif mudah untuk memahami mengapa permainan mandiri *dapat* bekerja untuk LLM, jika kita dapat menyediakan fungsi nilai pada langkah menengah (meskipun tidak dijamin dengan jelas seperti dalam permainan zero-sum dua pemain). Dalam catur / go / poker, kita memiliki hadiah yang terkait dengan setiap langkah berikutnya, tetapi seperti yang ditunjukkan Noam, bahasa alami itu berantakan. Sulit untuk mendefinisikan fungsi nilai pada langkah perantara seperti token. Akibatnya, dalam pembelajaran penguatan biasa (seperti RLVR), LLM mendapatkan hadiah di akhir. Mereka akhirnya belajar untuk 'berkelok-kelok' lebih banyak untuk masalah yang sulit. Di satu sisi, kami menghargai brute forcing dengan lebih banyak token untuk berakhir pada jawaban yang benar sebagai pendekatan yang tepat. Namun, pada @DeepCogito, kami memberikan sinyal untuk proses berpikir itu sendiri. Secara konseptual, Anda dapat membayangkan ini sebagai post-hoc yang memberikan hadiah untuk lintasan pencarian yang lebih baik. Ini mengajarkan model untuk mengembangkan intuisi yang lebih kuat untuk 'cara mencari' saat bernalar. Dalam praktiknya, model berakhir dengan rantai penalaran yang jauh lebih pendek untuk masalah yang lebih sulit dalam mode penalaran. Agak mengejutkan, itu juga menjadi lebih baik dalam mode non-berpikir. Salah satu cara untuk memikirkannya adalah karena model tahu cara mencari dengan lebih baik, ia 'memilih' lintasan yang paling mungkin lebih baik dalam mode non-berpikir.