Hôm nay đến mjlab! Đây là RL vani, không có mô phỏng chuyển động/AMP. Các bước đi tự nhiên xuất hiện từ những phần thưởng tối thiểu: theo dõi vận tốc, thân trên thẳng đứng, điều chỉnh khớp thích ứng với tốc độ, và chất lượng tiếp xúc (độ cao của chân, trượt, hạ cánh nhẹ nhàng). Không có quỹ đạo tham chiếu hay mẫu bước đi. Đi bộ, chạy, và vung tay hoàn toàn xuất hiện từ việc tối ưu hóa những mục tiêu đơn giản này. À, và thời gian huấn luyện? Chỉ 1 giờ.