Thông báo DreamDojo: mô hình thế giới tương tác mã nguồn mở của chúng tôi, điều khiển động cơ robot và tạo ra tương lai trong các pixel. Không có động cơ, không có lưới, không có động lực do con người viết tay. Đây là Simulation 2.0. Đã đến lúc robotics phải học bài học đắng. Việc học robot trong thế giới thực bị hạn chế bởi thời gian, hao mòn, an toàn và việc khởi động lại. Nếu chúng ta muốn AI Vật lý di chuyển với tốc độ trước khi huấn luyện, chúng ta cần một trình giả lập thích ứng với quy mô trước khi huấn luyện với càng ít kỹ thuật viên con người càng tốt. Những hiểu biết chính của chúng tôi: (1) video egocentric của con người là nguồn vật lý từ góc nhìn thứ nhất có thể mở rộng; (2) hành động tiềm ẩn khiến chúng "có thể đọc được bởi robot" trên các phần cứng khác nhau; (3) suy diễn thời gian thực mở khóa điều khiển từ xa trực tiếp, đánh giá chính sách và lập kế hoạch thời gian thử nghiệm *trong* một giấc mơ. Chúng tôi đã huấn luyện trước trên 44K giờ video của con người: rẻ, phong phú và được thu thập mà không có robot trong vòng lặp. Con người đã khám phá các tổ hợp: chúng tôi nắm, đổ, gấp, lắp ráp, thất bại, thử lại—trong các cảnh lộn xộn, góc nhìn thay đổi, ánh sáng thay đổi và chuỗi nhiệm vụ kéo dài hàng giờ—ở quy mô mà không đội robot nào có thể sánh kịp. Mảnh ghép còn thiếu: những video này không có nhãn hành động. Vì vậy, chúng tôi giới thiệu hành động tiềm ẩn: một đại diện thống nhất được suy diễn trực tiếp từ video mà không cần biết phần cứng cơ bản. Điều này cho phép chúng tôi huấn luyện trên bất kỳ video góc nhìn thứ nhất nào như thể nó đi kèm với các lệnh động cơ. Kết quả là, DreamDojo tổng quát không cần huấn luyện cho các đối tượng và môi trường chưa từng thấy trong bất kỳ bộ dữ liệu huấn luyện robot nào, vì con người đã thấy chúng trước. Tiếp theo, chúng tôi huấn luyện sau cho mỗi robot để phù hợp với phần cứng cụ thể của nó. Hãy nghĩ về nó như việc tách "thế giới trông như thế nào và hành xử ra sao" khỏi "robot cụ thể này hoạt động như thế nào." Mô hình cơ bản tuân theo các quy tắc vật lý chung, sau đó "gắn vào" cơ chế độc đáo của robot. Nó giống như việc tải một nhân vật mới và tài sản cảnh vào Unreal Engine, nhưng được thực hiện thông qua giảm dần gradient và tổng quát vượt xa bộ dữ liệu huấn luyện sau. Một trình giả lập thế giới chỉ hữu ích nếu nó chạy đủ nhanh để đóng vòng lặp. Chúng tôi huấn luyện một phiên bản thời gian thực của DreamDojo chạy ở 10 FPS, ổn định trong hơn một phút phát hành liên tục. Điều này mở khóa những khả năng thú vị: - Điều khiển từ xa trực tiếp *trong* một giấc mơ. Kết nối một bộ điều khiển VR, phát trực tiếp hành động vào DreamDojo và điều khiển một robot ảo trong thời gian thực. Chúng tôi trình diễn điều này trên Unitree G1 với một bộ kính PICO và một RTX 5090. - Đánh giá chính sách. Bạn có thể đánh giá một điểm kiểm tra chính sách trong DreamDojo thay vì trong thế giới thực. Tỷ lệ thành công mô phỏng tương quan mạnh mẽ với kết quả thực tế - đủ chính xác để xếp hạng các điểm kiểm tra mà không tiêu tốn một động cơ nào. - Lập kế hoạch dựa trên mô hình. Lấy mẫu nhiều đề xuất hành động → mô phỏng tất cả chúng song song → chọn tương lai tốt nhất. Tăng +17% tỷ lệ thành công trong thế giới thực ngay lập tức trong một nhiệm vụ đóng gói trái cây. Chúng tôi mở mã nguồn mọi thứ!! Trọng số, mã, bộ dữ liệu huấn luyện sau, bộ đánh giá và tài liệu trắng với rất nhiều chi tiết để tái tạo. DreamDojo dựa trên NVIDIA Cosmos, cũng có trọng số mở. Năm 2026 là năm của Mô hình Thế giới cho AI vật lý. Chúng tôi muốn bạn xây dựng cùng chúng tôi. Chúc bạn mở rộng thành công!