Aplicámos a Pesquisa Auto de Karpathy ao xadrez através da Opal, e os resultados foram fortes. Em vez de depender de livros de aberturas ou teoria memorizada, o sistema aprende diretamente a partir dos resultados. O agente joga partidas contra si mesmo, avalia posições com um motor, atualiza a política e repete o ciclo novamente. Com o tempo, esse ciclo de feedback acumula-se. Auto-jogo -> Avaliação -> Atualização de política -> Repetir. O resultado foi uma melhoria de +596 ELO. Quando o ciclo de aprendizagem é apertado, a melhoria acelera rapidamente.