Vi tillämpade Karpathy Auto Research på schack via Opal, och resultaten var starka. Istället för att förlita sig på öppna böcker eller memorerad teori lär sig systemet direkt av resultaten. Agenten spelar matcher mot sig själv, utvärderar positioner med en motor, uppdaterar policyn och kör loopen igen. Med tiden förstärks den återkopplingscykeln. Självspel -> utvärdering -> policyuppdatering -> upprepa. Resultatet blev en förbättring av ELO med +596. När inlärningsloopen är trång accelererar förbättringen snabbt.