Ant Group vừa mã nguồn mở LingBot-Depth. Nó giải quyết thách thức khó nhất về nhận thức độ sâu trong robot: xử lý các vật thể trong suốt và phản chiếu. Robot có "mắt" (cảm biến), nhưng chúng thường mù với những thứ như cốc thủy tinh hoặc bát kim loại sáng bóng. Chúng thực sự nhìn xuyên qua chúng hoặc bị chói mắt bởi các phản chiếu. LingBot-Depth khắc phục tình trạng mù này, cho phép robot "nhìn thấy" và tương tác với những thứ vô hình. Tóm tắt: - 10 triệu mẫu huấn luyện (~3,1 triệu được chọn lọc + 7 triệu công khai) - SOTA trên các tiêu chuẩn hoàn thành độ sâu - Hoạt động cho độ sâu đơn, độ sâu stereo, độ sâu video và theo dõi 3D - Nắm bắt thành công các vật thể trong suốt/ phản chiếu trong các thử nghiệm robot thực tế Thêm chi tiết bên dưới 👇 1/6
2/6 Vấn đề lớn nhất hiện nay là các camera robot tiêu chuẩn (RGB-D) hoạt động bằng cách chiếu ánh sáng ra ngoài để đo khoảng cách. Nhưng khi ánh sáng đó chạm vào một cửa sổ kính hoặc gương, nó không phản xạ lại đúng cách, mà đi qua hoặc phân tán. Robot chỉ thấy một "hố đen" hoặc tiếng ồn. Nó nghĩ rằng không có gì ở đó, vì vậy nó cố gắng đi qua cửa kính hoặc đè bẹp cốc. Giải pháp: LingBot-Depth đảo ngược điều này. Thay vì lọc ra những "hố đen" đó, nó sử dụng chúng như một tín hiệu học tập. Nó dạy AI sử dụng bối cảnh xung quanh (cái bàn, cái bóng) để "lấp đầy những chỗ trống" và tái tạo lại vật thể vô hình.
3/6 Họ đã lấy một mô hình thị giác (bộ mã hóa ViT) và đào tạo nó để chơi một trò chơi "điền vào chỗ trống" với các bản đồ độ sâu bị hỏng. Mô hình học cách nhìn vào: - Những gì mà camera RGB thấy (màu sắc, cạnh, bóng) - Dữ liệu độ sâu một phần đang hoạt động - Các mẫu của những gì đang thiếu Sau đó, nó tái tạo lại toàn bộ cảnh, bao gồm cả những phần không nhìn thấy. Điều thông minh: họ không tạo ra các mặt nạ giả. Họ chỉ sử dụng những thất bại tự nhiên của cảm biến làm dữ liệu đào tạo. Mỗi khi camera không nhìn thấy kính hoặc kim loại, điều đó trở thành một bài học.
4/6 LingBot-Depth vượt trội hơn các phương pháp hiện có trên các tiêu chuẩn độ sâu (iBims, NYUv2) và hoạt động trên nhiều nhiệm vụ mà không cần huấn luyện lại: - Độ sâu video: Giữ cho độ sâu nhất quán giữa các khung hình, ngay cả với các đối tượng trong suốt đang di chuyển - Khớp stereo: Cải thiện độ chính xác khi kết hợp với các hệ thống camera stereo - Theo dõi 3D: Giúp theo dõi các đối tượng qua không gian một cách mượt mà hơn Nó tổng quát hóa vì nó đã học cách xử lý "thông tin thiếu" như một kỹ năng cốt lõi, không phải như một trường hợp ngoại lệ.
5/6 Thử nghiệm Robot Thực tế Họ đã lắp đặt hệ thống trên một cánh tay robot (Rokae XMate SR5) và giao cho nó hai nhiệm vụ không thể thực hiện: Hộp lưu trữ trong suốt - Cảm biến độ sâu tiêu chuẩn: thất bại hoàn toàn (0% thành công, không thể phát hiện được) - LingBot Depth: tỷ lệ thành công 50% (nhìn thấy hộp, lập kế hoạch nắm bắt chính xác) Cốc thép phản chiếu - Cảm biến tiêu chuẩn: bị nhầm lẫn bởi các phản chiếu - LingBot Depth: thành công nhất quán (tái tạo hình học khả thi) Đây không chỉ là những con số tốt hơn trên một bài kiểm tra. Đó là một con robot thực sự có thể cầm ly nước của bạn mà không làm đổ.
663