Chúng tôi đã áp dụng Nghiên cứu Tự động Karpathy vào cờ vua thông qua Opal, và kết quả rất ấn tượng. Thay vì dựa vào sách khai cuộc hoặc lý thuyết đã ghi nhớ, hệ thống học trực tiếp từ kết quả. Đại lý chơi các trận đấu với chính nó, đánh giá các vị trí bằng một công cụ, cập nhật chính sách và lặp lại quy trình. Theo thời gian, chu trình phản hồi đó tích lũy. Tự chơi -> Đánh giá -> Cập nhật chính sách -> Lặp lại. Kết quả là cải thiện ELO +596. Khi vòng lặp học tập chặt chẽ, sự cải thiện diễn ra nhanh chóng.