estou apenas 5m dentro e parece que, obviamente, os modelos de raciocínio precisam de uma amígdala a abordagem atual (pelo que sei) é como o alphago com uma rede de políticas apenas não precisa ser um modelo separado (mais tarde, o alphazero usou um modelo combinado de valor+política) mas é preciso treinar essa saída "estou a ganhar"