私たちはKarpathy Auto ResearchをOpalを通じてチェスに適用し、結果は強力でした。 開く本や暗記した理論に頼るのではなく、システムは結果から直接学習します。エージェントは自分自身と対戦し、エンジンでポジションを評価し、ポリシーを更新し、ループを再度実行します。 時間が経つにつれて、そのフィードバックサイクルは蓄積されます。 セルフプレイ -> 評価 -> ポリシー更新 -> 繰り返し。 その結果、ELOは+596の改善となりました。 学習ループが狭いと、成長は急速に加速します。