Karpathy Auto Research'i Opal üzerinden saçta uyguladık ve sonuçlar güçlüydü. Giriş kitaplarına veya ezberlenmiş teoriye güvenmek yerine, sistem doğrudan sonuçlardan öğrenir. Temsilci maçları kendine karşı oynar, pozisyonları bir motorla değerlendirir, poliçeyi günceller ve döngüyü tekrar çalıştırır. Zamanla, bu geri bildirim döngüsü birikiyor. Kendi kendine oynama -> Değerlendirme -> Politika güncellemesi -> Tekrar. Sonuç +596 ELO iyileştirmesi oldu. Öğrenme döngüsü sıkı olduğunda, gelişim hızla hızlanır.