🦾Skvělý📷 milník pro open-source robotiku: pi0 a pi0.5 od @physical_int jsou nyní na @huggingface, plně portovány na PyTorch v roce @LeRobotHF a ověřeny bok po boku s OpenPI, aby s ním mohl každý experimentovat, ladit a nasazovat ve svých robotech! Jak popisuje Physical Intelligence, π₀.₅ je model Vision-Language-Action, který představuje významný vývoj od π₀ k řešení velké výzvy v robotice: zobecnění otevřeného světa. Zatímco roboti mohou v kontrolovaném prostředí provádět působivé úkoly, π₀.₅ je navržen tak, aby se zobecnil na zcela nová prostředí a situace, které během výcviku nebyly nikdy zaznamenány. Zobecnění musí probíhat na více úrovních: - Fyzická úroveň: Pochopení toho, jak zvednout lžíci (za rukojeť) nebo talíř (za okraj), a to i s neviditelnými předměty v přeplněném prostředí - Sémantická úroveň: Porozumění sémantice úkolů, kam dát oblečení a boty (koš na prádlo, ne na postel) a jaké nástroje jsou vhodné pro čištění rozlitých tekutin - Úroveň prostředí: Přizpůsobení se "chaotickému" reálnému prostředí, jako jsou domácnosti, obchody s potravinami, kanceláře a nemocnice Průlomovou inovací v π₀.₅ je společné školení na heterogenních zdrojích dat. Model se učí z: - Multimodální webová data: Titulky obrázků, vizuální odpovídání na otázky, detekce objektů - Ústní pokyny: Lidé koučují roboty složitými úkoly krok za krokem - Příkazy dílčích úkolů: Popisky sémantického chování na vysoké úrovni (např. "Vezmi polštář" pro neustlanou postel) - Data robota napříč provedením: Data z různých robotických platforem s různými schopnostmi - Data z více prostředí: Statičtí roboti nasazení v mnoha různých domácnostech - Data o manipulaci s mobilními roboty: ~400 hodin předvádění mobilních robotů Tato rozmanitá tréninková směs vytváří "učební osnovy", které umožňují zobecnění napříč fyzickou, vizuální a sémantickou úrovní současně. Obrovské poděkování patří týmu @physical_int a přispěvatelům Model: LeRobot: