Chào mọi người, cảm ơn vì sự quan tâm cho đến nay. Đây là một giải thích về những gì chúng tôi đã làm Tóm tắt: Đây là PPO cộng với các nơ-ron sống trong một vòng khép kín. Chính sách "nói" thông qua kích thích, các tế bào "trả lời" thông qua các xung, và hàm giá trị cung cấp một tín hiệu bất ngờ mà tôi đưa trở lại thông qua kích thích để chính sách có thể giao tiếp về việc một hành động tốt hay xấu như thế nào. Trước DOOM, có Pong, dựa vào các ánh xạ được tạo ra bằng tay. Trong một môi trường nhỏ, bạn có thể định nghĩa thủ công ý nghĩa của phản hồi và giữ cho nó nhất quán. Khi môi trường trở nên phức tạp hơn, các tín hiệu được tạo ra bằng tay trở nên khó khăn và không nhất quán. Số lượng ngữ cảnh mà một tín hiệu phải có cùng một ý nghĩa bùng nổ, và bạn bắt đầu tái phát minh tính bất biến bằng tay. DOOM là 3D và có tính thành phần. Đi bộ + quay + bắn có thể xảy ra cùng một lúc. Ánh xạ đúng không thể chỉ là một đống quy tắc, vì vậy tôi cần một bộ phát tín hiệu mà vẫn giữ được sự nhất quán khi hành vi thay đổi. Đó là lý do tại sao tôi đã sử dụng PPO. Các xung là không khả vi, và hàm giá trị của PPO cung cấp cho chúng tôi một cách để định nghĩa khách quan một "bất ngờ" kết hợp cho chính sách và các tế bào để biến nó thành một ngôn ngữ phản hồi trực tuyến. Chính sách không trực tiếp xuất ra "tiến về phía trước" hoặc "bắn." Chính sách xuất ra kích thích. Các tế bào phản ứng bằng các xung. Những xung đó là những gì chọn hành động trong trò chơi, thông qua một đầu ra tuyến tính. Ngoài ra, hàm giá trị cung cấp cho bạn một ước lượng trực tuyến về lợi nhuận, cho phép bạn tính toán bất ngờ như là lỗi dự đoán. Dựa trên bất ngờ hành động này, chúng tôi điều chỉnh tần suất và biên độ tương ứng cho các sơ đồ phản hồi khác nhau của chúng tôi. Ví dụ, nếu một hành động là tích cực và hàm giá trị nói "bất ngờ cao", thì chúng tôi giảm tần suất phản hồi hành động tích cực cho hành động đó, làm cho các hành động trở nên "dễ đoán" hơn mà các tế bào ưa thích.