Použili jsme Karpathy Auto Research na šachy přes Opal a výsledky byly silné. Místo spoléhání se na úvodní knihy nebo naučenou teorii se systém učí přímo z výsledků. Agent hraje zápasy sám se sebou, vyhodnocuje pozice pomocí enginu, aktualizuje politiku a smyčku spustí znovu. Postupem času se tento zpětnovazební cyklus hromadí. Samohraní -> Hodnocení -> Aktualizace politiky -> Opakovat. Výsledkem bylo zlepšení ELO o +596. Když je smyčka učení těsná, zlepšení se rychle zrychluje.