AMI Labs vừa huy động được 1,03 tỷ USD. World Labs đã huy động được 1 tỷ USD vài tuần trước. Cả hai đều đang đặt cược vào các mô hình thế giới. Nhưng gần như không ai hiểu cùng một điều khi nói đến thuật ngữ đó. Dưới đây là, theo quan điểm của tôi, năm loại mô hình thế giới. --- 1. Kiến trúc Dự đoán Nhúng Chung (JEPA) Đại diện: AMI Labs (@ylecun), V-JEPA 2 Cá cược chính ở đây là việc tái tạo pixel đơn thuần là một mục tiêu không hiệu quả để học các trừu tượng cần thiết cho sự hiểu biết vật lý. LeCun đã nói điều này trong nhiều năm — việc dự đoán mọi pixel trong tương lai là không thể thực hiện được trong bất kỳ môi trường ngẫu nhiên nào. JEPA tránh điều này bằng cách dự đoán trong một không gian tiềm ẩn đã học. Cụ thể, JEPA đào tạo một bộ mã hóa ánh xạ các đoạn video thành các đại diện, sau đó là một bộ dự đoán dự đoán các vùng bị che khuất trong không gian đại diện đó — không phải trong không gian pixel. Đây là một lựa chọn thiết kế quan trọng. Một mô hình sinh ra tái tạo pixel buộc phải cam kết với các chi tiết cấp thấp (kết cấu chính xác, ánh sáng, vị trí lá) vốn không thể dự đoán được. Bằng cách hoạt động trên các nhúng trừu tượng, JEPA có thể nắm bắt "quả bóng sẽ rơi khỏi bàn" mà không cần phải ảo tưởng từng khung hình của nó rơi. V-JEPA 2 là điểm chứng minh quy mô lớn rõ ràng nhất cho đến nay. Đây là một mô hình 1,2 tỷ tham số được tiền huấn luyện trên hơn 1 triệu giờ video thông qua dự đoán che khuất tự giám sát — không có nhãn, không có văn bản. Giai đoạn huấn luyện thứ hai là nơi nó trở nên thú vị: chỉ 62 giờ dữ liệu robot từ tập dữ liệu DROID là đủ để tạo ra một mô hình thế giới có điều kiện hành động hỗ trợ lập kế hoạch không cần huấn luyện. Robot tạo ra các chuỗi hành động ứng viên, tiến hành chúng qua mô hình thế giới, và chọn cái mà kết quả dự đoán của nó phù hợp nhất với hình ảnh mục tiêu. Điều này hoạt động trên các đối tượng và môi trường chưa từng thấy trong quá trình huấn luyện. Hiệu quả dữ liệu là tiêu đề kỹ thuật thực sự. 62 giờ gần như không là gì cả. Nó gợi ý rằng việc tiền huấn luyện tự giám sát trên video đa dạng có thể khởi động đủ kiến thức trước vật lý đến mức rất ít dữ liệu cụ thể cho miền là cần thiết ở phía dưới. Đó là một lập luận mạnh mẽ cho thiết kế JEPA — nếu các đại diện của bạn đủ tốt, bạn không cần phải làm mọi nhiệm vụ từ đầu. AMI Labs là nỗ lực của LeCun để đẩy điều này ra ngoài nghiên cứu. Họ đang nhắm đến lĩnh vực chăm sóc sức khỏe và robot trước tiên, điều này có lý do khi xem xét sức mạnh của JEPA trong lý luận vật lý với dữ liệu hạn chế. Nhưng đây là một cược dài hạn — CEO của họ đã công khai nói rằng các sản phẩm thương mại có thể còn nhiều năm nữa mới ra mắt. --- 2. Trí tuệ Không gian (Mô hình Thế giới 3D) Đại diện: World Labs (@drfeifei) ...