#PaperADay 12 2019: Học động lực tiềm ẩn để lập kế hoạch từ pixel (PlaNet) Đây là tiền thân của loạt tác giả / tác phẩm Dreamer 1/2/3/4 của các tác nhân RL, mà tôi sẽ đọc theo thứ tự. Lập kế hoạch là điều phổ biến trong các nhiệm vụ có động lực chuyển tiếp và phần thưởng được xác định đầy đủ như các trò chơi trên bàn, nhưng nó khó khăn hơn nhiều khi bạn phải học "các quy tắc của trò chơi" trong khi cố gắng cải thiện hiệu suất của mình, đặc biệt là khi cố gắng làm điều đó từ các pixel thô thay vì các đặc điểm trạng thái được quan sát hoàn hảo. Đôi khi tôi nửa đùa nửa thật bảo vệ quan điểm rằng "lập kế hoạch" có thể không thực sự là một thứ, ít nhất là ở các cấp độ thấp như thế này, và nó chỉ cảm thấy như lập kế hoạch khi những trải nghiệm liên quan được gọi lên từ bộ nhớ và việc huấn luyện khởi động trên chúng dẫn đến những thay đổi trong quyết định chính sách hiện tại. Có một bài báo Atari cổ điển lập luận rằng các bộ đệm phát lại *là* một loại mô hình thế giới phi tham số. Bài báo này đạt hiệu suất cao "gần như" các thuật toán không mô hình mạnh mẽ, nhưng với ít kinh nghiệm thế giới thực cần thiết hơn nhiều, vì hầu hết công việc đang diễn ra trong lập kế hoạch. Thường thì, các phương pháp dựa trên mô hình phải vật lộn để đạt được sự tương đương với các thuật toán không mô hình đơn giản hơn, và điều đó vẫn đang diễn ra với chuẩn Atari100k ngày nay. Đây là một hệ thống dựa trên mô hình cổ điển với một mô hình chuyển tiếp trạng thái và phần thưởng. Vấn đề lớn nhất với các mô hình chuyển tiếp thường là lỗi tích lũy nhanh chóng, vì vậy bạn không thể dự đoán nhiều bước vào tương lai. Các mô hình chuyển tiếp nhận một trạng thái cộng với một hành động, và dự đoán trạng thái tiếp theo và phần thưởng mà hành động đó mang lại. Một trong những phát hiện chính của bài báo là việc cố gắng học một mô hình chuyển tiếp xác định về cơ bản đã thất bại. Một mô hình ngẫu nhiên có thể được huấn luyện, nhưng hiệu suất cải thiện khi họ kết hợp cả tính toán xác định và ngẫu nhiên trong mô hình. Nhìn kỹ vào các khung dự đoán video trong phụ lục H là điều thú vị: một khi mô hình chuyển tiếp GRU xác định mất phương hướng trên một khung, mọi thứ sau đó đều bị hỏng, trong khi mô hình ngẫu nhiên có thể chuyển tiếp vào một cái gì đó vô lý trên một khung, nhưng sau đó quay trở lại một cái gì đó hợp lý sau đó. Tôi đã không nghĩ rằng điều đó. Mô hình kết hợp đầy đủ của họ đã đưa ra những dự đoán đẹp mắt trong suốt. Không có mạng chính sách hoặc giá trị như trong RL không mô hình. Các hành động được chọn bằng cách thử một chuỗi hành động bằng cách sử dụng các hàm chuyển tiếp và phần thưởng đã được mô hình hóa, và hành động dẫn đến kết quả tốt nhất sẽ được thực hiện. Hàng ngàn chuỗi hành động được đánh giá cho mỗi hành động được chọn, nhưng vì chúng hoạt động trên các vector tiềm ẩn gọn gàng, điều này tương đối hiệu quả. Phương pháp Cross-Entropy (CEM) được sử dụng để lập kế hoạch nhiều bước phía trước với các mô hình chuyển tiếp. Điều này phải mang tính chất heuristic cho các không gian hành động liên tục hoặc bất kỳ điều gì hơn một vài bước được mô hình hóa vào tương lai. Đầu vào cho mạng trạng thái là một quan sát RGB 64x64 (được lượng tử hóa thành 5 bit như GLOW; tôi không rõ tại sao điều này là cần thiết). Trong quá trình huấn luyện, họ có một mô hình quan sát cố gắng quay ngược từ một trạng thái đến một quan sát pixel. Điều này thường là không thể thực hiện hoàn hảo khi trạng thái nhỏ hơn hình ảnh, nhưng việc cố gắng này cung cấp một tín hiệu phản hồi phong phú cho những gì cần đưa vào trạng thái. Điều này không được sử dụng cho bất kỳ phần nào của quá trình quyết định hành động, nó chỉ là một công cụ hỗ trợ huấn luyện. Lặp lại hành động từ 2 đến 8, tùy thuộc vào nhiệm vụ. Sự vượt quá tiềm ẩn như một yếu tố điều chỉnh trong không gian tiềm ẩn khuyến khích các dự đoán một bước và nhiều bước lặp lại khớp nhau.