Ant Group только что опубликовала LingBot-Depth. Он решает самую сложную задачу восприятия глубины в робототехнике: работу с прозрачными и отражающими объектами. У роботов есть "глаза" (датчики), но они обычно слепы к таким вещам, как стеклянные чашки или блестящие металлические миски. Они буквально смотрят сквозь них или ослепляются отражениями. LingBot-Depth исправляет эту слепоту, позволяя роботам "видеть" и взаимодействовать с невидимым. Кратко: - 10M обучающих образцов (~3.1M отобранных + 7M публичных) - SOTA по бенчмаркам завершения глубины - Работает для монокулярной глубины, стерео, видео глубины и 3D-трекинга - Успешно захватывает прозрачные/отражающие объекты в реальных тестах роботов Больше деталей ниже 👇 1/6
2/6 На данный момент самой большой проблемой является то, что стандартные роботизированные камеры (RGB-D) работают, проецируя свет для измерения расстояния. Но когда этот свет попадает на стеклянное окно или зеркало, он не отражается правильно, он проходит сквозь или рассеивается. Робот просто видит "черную дыру" или шум. Он думает, что ничего нет, поэтому пытается пройти сквозь стеклянную дверь или разбить чашку. Решение: LingBot-Depth переворачивает это. Вместо того чтобы фильтровать эти "черные дыры", он использует их как сигнал для обучения. Он учит ИИ использовать окружающий контекст (стол, тень), чтобы "заполнить пробелы" и восстановить невидимый объект.
3/6 Они взяли модель видения (кодировщик ViT) и обучили её играть в игру "заполни пропуски" с повреждёнными картами глубины. Модель учится смотреть на: - То, что видит RGB-камера (цвета, края, тени) - Частичные данные о глубине, которые РАБОТАЮТ - Шаблоны того, что отсутствует Затем она восстанавливает полную сцену, включая невидимые части. Умный момент: они не создавали фальшивые маски. Они просто использовали естественные сбои сенсора в качестве обучающих данных. Каждый раз, когда камера не могла увидеть стекло или металл, это становилось уроком.
4/6 LingBot-Depth превосходит существующие методы по стандартным тестам глубины (iBims, NYUv2) и работает по нескольким задачам без повторного обучения: - Глубина видео: Сохраняет глубину постоянной между кадрами, даже для движущихся прозрачных объектов - Стерео-сопоставление: Улучшает точность при комбинировании с системами стереокамер - 3D-трекинг: Помогает более плавно отслеживать объекты в пространстве Он обобщает, потому что научился обрабатывать "отсутствующую информацию" как основное умение, а не как крайний случай.
5/6 Тест реального робота Они установили систему на роботизированную руку (Rokae XMate SR5) и дали ей две невозможные задачи: Прозрачная коробка для хранения - Стандартный датчик глубины: полное фиаско (0 процентов успеха, не смог даже обнаружить) - LingBot Depth: 50 процентов успеха (увидел коробку, правильно спланировал захват) Отражающая стальная чашка - Стандартный датчик: запутался из-за отражений - LingBot Depth: стабильный успех (воссоздал правдоподобную геометрию) Это не просто лучшие цифры в бенчмарке. Это робот, который действительно может взять ваш стакан с водой, не опрокинув его.
665