#PaperADay 15 2024: Làm chủ các lĩnh vực đa dạng thông qua các mô hình thế giới (DreamerV3) Áp dụng mô hình Dreamer mới nhất cho hơn 150 nhiệm vụ đa dạng, đạt được điểm số hàng đầu trong nhiều nhiệm vụ, nhưng đặc biệt nhất là áp dụng nó vào việc khai thác kim cương trong Minecraft, một thách thức khó khăn hơn nhiều so với hầu hết các nhiệm vụ RL. Báo chí đã đưa tin rằng "AI giải quyết Minecraft", điều này gây hiểu lầm. Sau 30 triệu bước môi trường (20 hz) (17 ngày không ngừng), nó đã khai thác được một viên kim cương. Khác với các trò chơi Atari, được chơi với cùng một pixel và điều khiển mà con người sử dụng, đây là một giao diện đã được chỉnh sửa với kho đồ và thống kê được trình bày trực tiếp cho mô hình, và một không gian hành động phân loại - không cần phải di chuột quanh kho đồ và màn hình chế tạo. Việc khai thác đã phải được chỉnh sửa để phá vỡ ngay lập tức thay vì giữ nút khai thác trong nhiều giây như bình thường vì Dreamer sử dụng các chính sách hành động ngẫu nhiên, gần như không thể giữ nút trong hàng trăm khung hình liên tiếp. Tương tự, hành động nhảy yêu cầu phải giữ nhiều khung hình, vì vậy nó đã được làm cho ngay lập tức. Dù sao, đây là lần đầu tiên một tác nhân RL đã tiến xa như vậy mà không sử dụng học bắt chước từ người chơi, và những cải tiến đáng kể cũng đã được thực hiện trên tất cả các tiêu chuẩn khác. Các cải tiến chủ yếu là những nỗ lực kỹ thuật, thay vì các kiến trúc hoàn toàn khác nhau. Tôi đã bỏ lỡ phần "những điều chúng tôi đã thử nhưng không thành công" từ V2. Với những thay đổi, họ có thể mở rộng mô hình từ 12M đến 400M tham số một cách có lợi, và tỷ lệ phát lại từ 1 đến 64 lần tỷ lệ môi trường. Thuật ngữ trong bài báo giờ đây gần gũi hơn với các bài báo RL khác: "Bộ dự đoán tiếp tục" thay vì "bộ dự đoán giảm giá" và sử dụng Pi cho các mạng chính sách. Các sơ đồ đã được cải thiện. Với các mô hình được đào tạo chung, có một sự căng thẳng giữa mô hình đại diện muốn suy giảm để làm cho việc dự đoán dễ dàng hơn và việc hữu ích cho việc dự đoán các trạng thái tiếp theo. Một trong những mẹo họ sử dụng là "các bit miễn phí", cắt giảm tổn thất khi dưới một mức nhất định để họ không cố gắng giảm xuống không, cho phép lực đối kháng tiến bộ mà không bị cản trở. Đối với các phân phối phân loại, họ sử dụng 1% làm mịn nhãn trên các phân phối phân loại để tránh các đỉnh trong tổn thất KL. Họ gọi điều này là "unimix" để trộn một phân phối đồng nhất lên trên phân phối hiện có. Điều này không chuẩn (so với làm mịn nhãn), nhưng có thể là thuật ngữ tốt hơn. Họ sử dụng giá trị phân loại hai nóng thay vì hồi quy MSE cho người đánh giá, nhưng khác với hầu hết các triển khai khác, sử dụng các thùng được phân bố theo cấp số nhân thay vì phân bố theo cấp số tuyến tính để họ có thể bao phủ nhiều bậc độ lớn khác nhau. Họ định nghĩa các hàm symlog() / symexp() để cho phép các mạng xử lý các giá trị thay đổi rộng rãi trong cả hai phạm vi dương và âm. Được báo cáo là hoạt động tốt hơn so với phép biến đổi phi tuyến tương tự được sử dụng trong MuZero và Muesli. Điều này rõ ràng yêu cầu một số sự chú ý: "Để tính toán dự đoán mong đợi của phân phối softmax dưới các thùng trải dài nhiều bậc độ lớn, thứ tự tổng hợp có ý nghĩa và các thùng dương và âm nên được tổng hợp riêng biệt, từ các thùng nhỏ đến lớn, và sau đó cộng lại." Lớp cuối cùng của các mô hình phần thưởng và người đánh giá được khởi tạo bằng không thay vì khởi tạo ngẫu nhiên để tránh các giá trị giả lớn có thể xảy ra ở giai đoạn đầu của việc đào tạo. Mô hình mục tiêu cho hàm giá trị giờ đây là một EMA thay vì một bản sao định kỳ. ...