Sunt doar la 5 minute și se pare că, evident, modelele de raționament au nevoie de o amigdală Abordarea actuală (din câte știu) este ca AlphaGo, doar cu o rețea de politici Nu trebuie neapărat să fie un model separat (mai târziu AlphaZero a folosit un model combinat valoare+politică), dar trebuie să antrenezi acel rezultat "Sunt eu câștigător?"