ik ben pas 5 minuten bezig en het lijkt erop dat redeneringsmodellen duidelijk een amygdala nodig hebben de huidige aanpak (voor zover ik weet) is als AlphaGo met alleen een beleidsnetwerk het hoeft geen apart model te zijn (later gebruikte AlphaZero een gecombineerd waarde+beleid model) maar je moet die "win ik?" output trainen