Wir haben Karpathy Auto Research auf Schach durch Opal angewendet, und die Ergebnisse waren stark. Anstatt sich auf Eröffnungsbücher oder auswendig gelerntes Theorie zu verlassen, lernt das System direkt aus den Ergebnissen. Der Agent spielt Matches gegen sich selbst, bewertet Positionen mit einer Engine, aktualisiert die Strategie und durchläuft den Zyklus erneut. Im Laufe der Zeit kumuliert dieser Feedback-Zyklus. Selbstspiel -> Bewertung -> Strategieaktualisierung -> Wiederholen. Das Ergebnis war eine Verbesserung von +596 ELO. Wenn der Lernzyklus eng ist, beschleunigt sich die Verbesserung schnell.