Sovelsimme Karpathy Auto Researchia shakkiin Opalin kautta, ja tulokset olivat vahvoja. Sen sijaan, että järjestelmä luottaisi kirjojen avaamiseen tai ulkoa opetteluun, se oppii suoraan tuloksista. Agentti pelaa otteluita itseään vastaan, arvioi pelipaikkoja moottorilla, päivittää politiikan ja suorittaa silmukan uudelleen. Ajan myötä tuo palautesykli kasaantuu. Itsepelaaminen -> Arviointi -> Politiikan päivitys -> Toista. Tuloksena oli +596 ELO-parannus. Kun oppimiskierros on tiukka, kehitys kiihtyy nopeasti.