Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ant Group щойно відкрила LingBot-Depth.
Вона вирішує найскладніший виклик сприйняття глибини в робототехніці: роботу з прозорими та відбиваючими об'єктами.
Роботи мають «очі» (сенсори), але зазвичай не бачать таких речей, як скляні чашки чи блискучі металеві миски. Вони буквально дивляться крізь них або засліпуються відображеннями.
LingBot-Depth виправляє цю сліпоту, дозволяючи роботам «бачити» і взаємодіяти з невидимим.
Коротко:
- 10 млн навчальних зразків (~3,1 млн кураторів + 7 млн публічних)
- SOTA щодо бенчмарків завершення глибини
- Працює для монокулярної глибини, стерео, глибини відео та 3D-відстеження
- Успішне захоплення прозорих/відбивних об'єктів у реальних робот-тестах
Більше деталей нижче 👇 1/6
2/6
Найбільша проблема зараз полягає в тому, що стандартні роботизовані камери (RGB-D) працюють шляхом проєкції світла для вимірювання відстані.
Але коли це світло потрапляє на скляне вікно чи дзеркало, воно не відбивається правильно, а проходить крізь нього або розсіюється. Робот просто бачить «чорну діру» або шум. Він думає, що там нічого немає, тому намагається пройти крізь скляні двері або розчавити чашку.
Рішення: LingBot-Depth перевертає це. Замість того, щоб фільтрувати ці «чорні діри», він використовує їх як навчальний сигнал. Він навчає ШІ використовувати навколишній контекст (таблицю, тінь), щоб «заповнити прогалини» та відновити невидимий об'єкт.

3/6
Вони взяли модель зору (ViT-енкодер) і навчили її грати у гру «заповнювати прогалини» з зламаними картами глибини.
Модель вчиться дивитися на:
- Що бачить RGB-камера (кольори, краї, тіні)
- Дані часткової глибини, які ПРАЦЮЮТЬ
- Закономірності того, чого бракує
Потім він відтворює всю сцену, включно з невидимими частинами.
Розумна деталь: вони не створювали фальшиві маски. Вони просто використовували природні відмови сенсора як навчальні дані. Кожного разу, коли камера не бачила скла чи металу, це ставало уроком.

4/6
LingBot-Depth перевершує існуючі методи стандартних глибинних бенчмарків (iBims, NYUv2) і працює з кількома завданнями без повторного навчання:
- Глибина відео: Зберігає рівномірну глибину між кадрами, навіть для рухомих прозорих об'єктів
- Стерео-відповідність: Покращує точність у поєднанні зі стереокамерами
- 3D-відстеження: допомагає відстежувати об'єкти у просторі більш плавно
Він узагальнює, бо навчився працювати з «відсутньою інформацією» як основною навичкою, а не як крайнім випадком.

5/6
Справжній тест робота
Вони встановили систему на роботизовану руку (Rokae XMate SR5) і доручили їй дві неможливі завдання:
Прозора коробка для зберігання
- Стандартний датчик глибини: повний відмова (0% успіху, навіть не вдалося його виявити)
- Глибина LingBot: 50 відсотків успішності (побачив коробку, правильно спланував захоплення)
Відбивна сталева чашка
- Стандартний сенсор: плутає через відбиття
- Глибина LingBot: стабільний успіх (реконструйована правдоподібна геометрія)
Це не просто кращі показники на бенчмарку.
Це робот, який може схопити вашу склянку з водою, не перекинувши її.

668
Найкращі
Рейтинг
Вибране
