Nous avons appliqué la recherche Auto de Karpathy aux échecs via Opal, et les résultats étaient solides. Au lieu de s'appuyer sur des livres d'ouvertures ou une théorie mémorisée, le système apprend directement des résultats. L'agent joue des parties contre lui-même, évalue les positions avec un moteur, met à jour la politique et relance la boucle. Au fil du temps, ce cycle de rétroaction s'accumule. Auto-jeu -> Évaluation -> Mise à jour de la politique -> Répéter. Le résultat a été une amélioration de +596 ELO. Lorsque la boucle d'apprentissage est serrée, l'amélioration s'accélère rapidement.