Am aplicat Karpathy Auto Research la șah prin Opal, iar rezultatele au fost solide. În loc să se bazeze pe cărți de deschidere sau teorie memorată, sistemul învață direct din rezultate. Agentul joacă potriviri împotriva sa, evaluează pozițiile cu un motor, actualizează politica și rulează din nou ciclul. În timp, acest ciclu de feedback se acumulează. Self-play -> Evaluare -> Actualizare de politică -> Repetă. Rezultatul a fost o îmbunătățire a ELO-ului de +596. Când bucla de învățare este strânsă, îmbunătățirea se accelerează rapid.