Saya hanya 5m dan sepertinya jelas model penalaran membutuhkan amigdala Pendekatan Saat Ini (AFAIK) seperti AlphaGo dengan jaringan kebijakan saja tidak harus menjadi model terpisah (kemudian alphazero menggunakan model nilai + kebijakan gabungan) tetapi harus melatih output "apakah saya menang"