sono solo 5 minuti dentro e sembra ovvio che i modelli di ragionamento abbiano bisogno di un'amigdala l'approccio attuale (per quanto ne so) è come AlphaGo con una rete di policy sola non deve essere un modello separato (in seguito AlphaZero ha usato un modello combinato valore+policy) ma bisogna addestrare quel "sto vincendo" output