Abbiamo applicato la Ricerca Auto di Karpathy agli scacchi attraverso Opal, e i risultati sono stati forti. Invece di fare affidamento su libri di apertura o teoria memorizzata, il sistema impara direttamente dai risultati. L'agente gioca partite contro se stesso, valuta le posizioni con un motore, aggiorna la politica e ripete il ciclo. Nel tempo, quel ciclo di feedback si accumula. Auto-gioco -> Valutazione -> Aggiornamento della politica -> Ripeti. Il risultato è stato un miglioramento di +596 ELO. Quando il ciclo di apprendimento è stretto, il miglioramento accelera rapidamente.