Czy twoja polityka robota jest oparta na modelu świata? Jim Fan z NVIDIA stawia na to duże pieniądze. Twierdzi, że oparte na VLM VLAs są zasadniczo źle dopasowane do robotyki, ponieważ priorytetowo traktują wysokopoziomową semantykę kosztem szczegółowych fizycznych detali wymaganych do zręczności. "Model świata wideo wydaje się być znacznie lepszym celem wstępnego szkolenia dla polityki robota." Możemy się spodziewać dużego nacisku ze strony NVIDIA w tym kierunku w tym roku.
Jim Fan
Jim Fan29 gru 2025
Wszyscy panikują z powodu kodowania wibracji. W świątecznym nastroju pozwólcie, że podzielę się moim niepokojem na temat dzikiego zachodu robotyki. 3 lekcje, które nauczyłem się w 2025 roku. 1. Sprzęt wyprzedza oprogramowanie, ale niezawodność sprzętu poważnie ogranicza szybkość iteracji oprogramowania. Widzieliśmy wspaniałe osiągnięcia inżynieryjne, takie jak Optimus, e-Atlas, Figure, Neo, G1 itd. Nasza najlepsza AI nie wycisnęła jeszcze całego soku z tego nowatorskiego sprzętu. Ciało jest bardziej zdolne niż to, co mózg może nakazać. Jednak opieka nad tymi robotami wymaga całego zespołu operacyjnego. W przeciwieństwie do ludzi, roboty nie leczą się z siniaków. Przegrzewanie, uszkodzone silniki, dziwne problemy z oprogramowaniem dręczą nas na co dzień. Błędy są nieodwracalne i bezlitosne. Moja cierpliwość była jedyną rzeczą, która się zwiększała. 2. Benchmarking w robotyce to wciąż epicka katastrofa. Normiki LLM myślały, że MMLU i SWE-Bench to zdrowy rozsądek. Wstrzymajcie swoje 🍺 na robotykę. Nikt się w niczym nie zgadza: platforma sprzętowa, definicja zadania, kryteria oceny, symulator czy rzeczywiste ustawienia. Wszyscy są SOTA, z definicji, w benchmarku, który definiują na bieżąco przy każdej zapowiedzi. Wszyscy wybierają najładniejszą demonstrację spośród 100 prób. Musimy się poprawić jako dziedzina w 2026 roku i przestać traktować reprodukowalność i dyscyplinę naukową jako obywateli drugiej kategorii. 3. VLM oparte na VLA wydaje się błędne. VLA oznacza model "wizja-język-działanie" i jest dominującym podejściem dla mózgów robotów. Przepis jest prosty: weź punkt kontrolny VLM po wstępnym szkoleniu i graftuj moduł działania na górze. Ale jeśli się nad tym zastanowisz, VLM są hiperoptymalizowane do wspinania się po benchmarkach, takich jak odpowiadanie na pytania wizualne. To implikuje dwa problemy: (1) większość parametrów w VLM dotyczy języka i wiedzy, a nie fizyki; (2) enkodery wizualne są aktywnie dostosowywane do *odrzucania* szczegółów niskiego poziomu, ponieważ Q&A wymaga tylko zrozumienia na wysokim poziomie. Ale drobne szczegóły mają ogromne znaczenie dla zręczności. Nie ma powodu, dla którego wydajność VLA miałaby rosnąć w miarę wzrostu parametrów VLM. Wstępne szkolenie jest źle dopasowane. Model świata wideo wydaje się być znacznie lepszym celem wstępnego szkolenia dla polityki robotów. Stawiam na to duże pieniądze.
Polityka oparta na modelu świata 1X stosuje podobne podejście, przekształcając generowanie wideo w autonomiczne działania robotów. - Wideo generowane przez AI po lewej - Rzeczywiste działanie robota po prawej
49