Olen vasta 5 minuuttia ja vaikuttaa siltä, että järkeilymallit tarvitsevat mantelitumakkeen Nykyinen lähestymistapa (minun tietääkseni) on kuin Alphago, jossa on vain politiikkaverkosto Ei tarvitse olla erillinen malli (myöhemmässä AlphaZerossa käytettiin yhdistettyä arvo+politiikkamallia), mutta se "voitanko" -tulos täytyy kouluttaa