Kami menerapkan Karpathy Auto Research untuk catur melalui Opal, dan hasilnya kuat. Alih-alih mengandalkan pembukaan buku atau teori yang dihafal, sistem belajar langsung dari hasil. Agen memainkan pertandingan melawan dirinya sendiri, mengevaluasi posisi dengan mesin, memperbarui kebijakan, dan menjalankan perulangan lagi. Seiring waktu, siklus umpan balik itu bertambah. Putar mandiri -Evaluasi > -> Pembaruan kebijakan -> Ulangi. Hasilnya adalah peningkatan ELO +596. Ketika lingkaran pembelajaran ketat, peningkatan meningkat dengan cepat.