È intuitivamente facile capire perché il self play *può* funzionare per i LLM, se siamo in grado di fornire una funzione di valore nei passaggi intermedi (anche se non è garantito in modo chiaro come nei giochi a somma zero per due giocatori). Negli scacchi / go / poker, abbiamo una ricompensa associata a ogni mossa successiva, ma come sottolinea Noam, il linguaggio naturale è disordinato. È difficile definire una funzione di valore nei passaggi intermedi come i token. Di conseguenza, nell'apprendimento per rinforzo usuale (come RLVR), i LLM ricevono una ricompensa alla fine. Finiscono per imparare a 'vagare' di più per problemi difficili. In un certo senso, premiamo la forza bruta con più token per arrivare alla risposta giusta come approccio corretto. Tuttavia, presso @DeepCogito, forniamo un segnale per il processo di pensiero stesso. Concettualmente, puoi immaginare questo come l'assegnazione post-hoc di una ricompensa a traiettorie di ricerca migliori. Questo insegna al modello a sviluppare una intuizione più forte su 'come cercare' mentre ragiona. In pratica, il modello finisce con catene di ragionamento significativamente più brevi per problemi più difficili in modalità di ragionamento. In modo sorprendente, finisce anche per essere migliore in modalità non pensante. Un modo per pensarci è che, poiché il modello sa come cercare meglio, 'sceglie' la traiettoria più probabile meglio in modalità non pensante.