Ми застосували Karpathy Auto Research до шахів через Opal, і результати були сильними. Замість того, щоб покладатися на відкриття книг чи запам'ятовувану теорію, система вчиться безпосередньо на результатах. Агент грає матчі сам із собою, оцінює позиції за допомогою рушія, оновлює політику і запускає цикл знову. З часом цей цикл зворотного зв'язку накопичується. Самогра -> Оцінка -> Оновлення політики -> Повторити. Результатом стало покращення ELO на +596. Коли цикл навчання напружений, прогрес швидко прискорюється.