tôi chỉ mới 5 phút và có vẻ như rõ ràng các mô hình lý luận cần một amygdala cách tiếp cận hiện tại (theo như tôi biết) giống như alphago chỉ với một mạng chính sách không nhất thiết phải là một mô hình riêng biệt (sau này alphazero đã sử dụng một mô hình kết hợp giá trị + chính sách) nhưng phải đào tạo đầu ra "tôi có đang thắng không"