я только на 5 минуте, и кажется, что модели рассуждений явно нуждаются в амигдале текущий подход (насколько я знаю) похож на alphago только с политической сетью не обязательно, чтобы это была отдельная модель (позже alphazero использовал комбинированную модель ценности + политики), но нужно обучить этот вывод "выигрываю ли я"