#PaperADay 14 2022: THÀNH THẠO ATARI VỚI CÁC MÔ HÌNH THẾ GIỚI RỜI RẠC (DreamerV2) DreamerV1 chủ yếu nhắm đến các nhiệm vụ điều khiển liên tục, nhưng nó cũng đã chứng minh khả năng chơi cơ bản các trò chơi Atari và các nhiệm vụ DMLab. DreamerV2 đã cải thiện mô hình để đạt được hiệu suất hàng đầu trong bộ 55 trò chơi Atari, và cũng đã giải quyết nhiệm vụ điều khiển liên tục khó hơn là đi bộ hình người. Đây thực sự là một bài báo kỹ thuật, và tôi rất thích điều đó! Trong phụ lục C, họ tóm tắt những thay đổi đã dẫn đến hiệu suất cải thiện, và cũng (rất hiếm trong các bài báo!) một danh sách những điều họ đã thử mà không thành công. Các thuật toán được trình bày bằng mã thực tế với tên thay vì các ký tự Hy Lạp. Điều đáng chú ý là họ chỉ sử dụng hình ảnh 64x64 màu xám làm đầu vào, và những hình ảnh đó đã được giảm kích thước từ độ phân giải 84x84 phổ biến được sử dụng bởi DQN, vì vậy nó thậm chí không phải là một hình ảnh 64x64 hoàn hảo từ nguồn. Đó là những đầu vào rất mờ cho những điểm số tốt như vậy. Tôi tò mò không biết việc sử dụng hình ảnh 128x128xRGB với một lớp conv bổ sung có cải thiện hiệu suất hay không, hoặc nếu chi tiết bổ sung sẽ làm cho mô hình thế giới khó huấn luyện hơn. Thay đổi lớn nhất của họ là thay thế các biến latents gaussian kiểu VAE, chỉ có 32 cặp trung bình/độ biến thiên, bằng các biến phân loại: 32 biến của 32 loại. Họ không có lý thuyết kết luận tại sao điều này lại tốt hơn nhiều, nhưng đưa ra một số lý thuyết. Sẽ thật thú vị nếu so sánh nhiều gaussian hơn với các đầu ra phân loại lớn hơn. Thay đổi thuật toán lớn khác là "cân bằng KL", hoặc sử dụng một tốc độ học khác nhau cho các trọng số trước và sau, để bộ dự đoán huấn luyện nhanh hơn so với đại diện. Tối ưu hóa chung dường như đã gặp vấn đề với V1. DreamerV1 gặp khó khăn với việc khám phá, và vẫn có một hành động ngẫu nhiên epsilon bên cạnh chính sách hành động ngẫu nhiên. Việc điều chỉnh và mô hình động lực cải tiến của V2 cho phép họ bỏ qua sự ngẫu nhiên bổ sung và chỉ dựa vào chính sách. Họ thực hiện một số thay đổi đáng kể trong tổn thất KL và thiết lập huấn luyện cho các nhiệm vụ điều khiển liên tục so với điều khiển Atari rời rạc. Họ cũng đã mở rộng các mô hình và sử dụng kích hoạt ELU ở mọi nơi. Giao thức đánh giá Atari của họ rất tốt: không gian hành động đầy đủ với các hành động dính được kích hoạt. Các điểm số đủ cao để họ đề xuất một chỉ số mới: "điểm trung bình ghi chép cắt" – chuẩn hóa theo kỷ lục thế giới của con người, cắt nếu nó vượt quá, sau đó lấy trung bình của tất cả các trò chơi. Các kết quả RL Atari lịch sử đã so sánh với các điểm số "con người", ban đầu là một số người ngẫu nhiên, sau đó cuối cùng là một game thủ chuyên nghiệp, nhưng đối với các tác nhân mạnh mẽ trong chế độ 200M khung hình, chỉ số ghi chép cắt này có giá trị. Trong quá trình huấn luyện qua 200 triệu khung hình môi trường thực, hoặc 50 triệu lựa chọn hành động với action_repeat 4, 468 tỷ trạng thái latents đã được tưởng tượng, cho gần 10 lần trải nghiệm mà một tác nhân không mô hình sẽ thấy. Trải nghiệm môi trường thực được huấn luyện theo lô 50 chuỗi mỗi chuỗi 50 bước. Các chuỗi bị hạn chế không được vượt qua ranh giới tập. Khi huấn luyện chính sách và các hàm giá trị, các chuỗi tưởng tượng được triển khai trong 15 bước. ...