Estou com apenas 5 minutos e parece que obviamente modelos de raciocínio precisam de uma amígdala A abordagem atual (pelo que sei) é como o AlphaGo, só com uma rede de políticas Não precisa ser um modelo separado (depois o AlphaZero usou um modelo combinado de valor+política), mas tem que treinar essa saída de "estou ganhando?"