Ant Group avasi juuri LingBot-Depthin. Se ratkaisee robotiikan vaikeimman syvyyshavainnon haasteen: läpinäkyvien ja heijastavien esineiden käsittelyn. Roboteilla on "silmät" (sensorit), mutta ne ovat yleensä sokeita esimerkiksi lasikupeille tai kiiltäville metallikulhoille. He kirjaimellisesti katsovat niiden läpi tai sokaistuvat heijastuksista. LingBot-Depth korjaa tämän sokeuden, antaen roboteille mahdollisuuden "nähdä" ja olla vuorovaikutuksessa näkymättömän kanssa. TLDR: - 10 miljoonan koulutusnäytteen (~3,1 miljoonaa kuratoitua + 7 miljoonaa yleisöä) - SOTA syvyyden täydentämisen mittareista - Toimii monokulaariseen syvyyteen, stereoon, videon syvyyteen ja 3D-seurantaan - Onnistuu tarttumaan läpinäkyviin/heijastavisiin esineisiin oikeissa robottitesteissä Lisätietoja alla 👇 1/6
2/6 Suurin ongelma tällä hetkellä on, että tavalliset robottikamerat (RGB-D) toimivat projisoimalla valoa etäisyyden mittaamiseksi. Mutta kun tuo valo osuu lasi-ikkunaan tai peiliin, se ei heijastu takaisin oikein, vaan se menee läpi tai hajaantuu. Robotti näkee vain "mustan aukon" eli äänen. Se luulee, ettei siellä ole mitään, joten se yrittää kävellä lasioven läpi tai murskata kupin. Ratkaisu: LingBot-Depth kääntää tämän päälaelleen. Sen sijaan, että se suodattaisi pois nuo "mustat aukot", se käyttää niitä oppimissignaalina. Se opettaa tekoälyä käyttämään ympäröivää kontekstia (taulukkoa, varjoa) "täyttääkseen aukot" ja rekonstruoidakseen näkymättömän esineen.
3/6 He ottivat vision mallin (ViT-kooderi) ja kouluttivat sen pelaamaan "täytä aukot" -peliä rikkinäisillä syvyyskartoilla. Malli oppii katsomaan: - Mitä RGB-kamera näkee (värit, reunat, varjot) - Osittainen syvyysdata, joka TOIMII - Kaavat siitä, mitä puuttuu Sitten se rekonstruoi koko kohtauksen, mukaan lukien näkymättömät osat. Nokkela puoli: he eivät tehneet väärennettyjä naamioita. He käyttivät vain sensorin luonnollisia vikoja koulutusdatana. Joka kerta kun kamera ei nähnyt lasia tai metallia, siitä tuli oppitunti.
4/6 LingBot-Depth päihittää olemassa olevat menetelmät standardeissa syvyystesteissä (iBims, NYUv2) ja toimii useissa tehtävissä ilman uudelleenkoulutusta: - Videon syvyys: Pitää syvyyden tasaisena ruutujen välillä, jopa läpinäkyvien objektien liikuttamisessa - Stereosovitus: Parantaa tarkkuutta yhdistettynä stereokamerajärjestelmiin - 3D-seuranta: Auttaa seuraamaan esineitä avaruudessa sujuvammin Se yleistää, koska se oppi käsittelemään "puuttuvaa tietoa" ydintaitona, ei poikkeustapauksena.
5/6 Todellinen robottitesti He kiinnittivät järjestelmän robottikäsivarteen (Rokae XMate SR5) ja antoivat sille kaksi mahdotonta tehtävää: Läpinäkyvä säilytyslaatikko - Vakio syvyysanturi: täydellinen vika (0 prosentin onnistuminen, ei edes havaittu) - LingBotin syvyys: 50 prosentin onnistumisprosentti (näin laatikon, suunnittelin oikein) Heijastava teräskuppi - Vakioanturi: hämmentynyt heijastuksista - LingBotin syvyys: johdonmukainen onnistuminen (rekonstruoitu uskottava geometria) Nämä eivät ole vain parempia lukuja vertailuarvoissa. Se on robotti, joka voi oikeasti napata vesilasisi kaatumatta siihen.
662