Мы применили Karpathy Auto Research к шахматам через Opal, и результаты были впечатляющими. Вместо того чтобы полагаться на дебютные книги или запомненную теорию, система учится непосредственно на основе результатов. Агент играет матчи против самого себя, оценивает позиции с помощью движка, обновляет политику и снова запускает цикл. Со временем этот цикл обратной связи накапливается. Самоигра -> Оценка -> Обновление политики -> Повтор. Результатом стало улучшение на +596 ELO. Когда цикл обучения плотный, улучшение происходит быстро.