Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ogłaszamy DreamDojo: nasz otwarty, interaktywny model świata, który przejmuje kontrolę nad silnikami robotów i generuje przyszłość w pikselach. Bez silnika, bez siatek, bez ręcznie tworzonych dynamik. To Symulacja 2.0. Czas, aby robotyka przyjęła gorzką lekcję.
Uczenie się robotów w rzeczywistym świecie jest ograniczone przez czas, zużycie, bezpieczeństwo i resetowanie. Jeśli chcemy, aby Fizyczna AI poruszała się z prędkością wstępnego szkolenia, potrzebujemy symulatora, który dostosowuje się do skali wstępnego szkolenia z jak najmniejszą ilością inżynierii ludzkiej.
Nasze kluczowe spostrzeżenia: (1) ludzkie filmy egocentryczne są skalowalnym źródłem fizyki z perspektywy pierwszej osoby; (2) ukryte działania sprawiają, że są "czytelne dla robotów" na różnych sprzętach; (3) wnioskowanie w czasie rzeczywistym odblokowuje teleoperację na żywo, ocenę polityki i planowanie w czasie testu *wewnątrz* snu.
Wstępnie szkolimy na 44 tysiącach godzin ludzkich filmów: tanich, obfitych i zebranych bez żadnego robota w pętli. Ludzie już zbadali kombinatorykę: chwytamy, wlewamy, składamy, montujemy, zawodzimy, próbujemy ponownie — w zagraconych scenach, zmieniających się punktach widzenia, zmieniającym się świetle i godzinnych łańcuchach zadań — w skali, której żadna flota robotów nie mogłaby dorównać. Brakującym elementem: te filmy nie mają etykiet akcji. Dlatego wprowadzamy ukryte działania: zjednoczoną reprezentację wywnioskowaną bezpośrednio z filmów, która uchwyca "co się zmieniło między stanami świata" bez znajomości sprzętu. To pozwala nam szkolić na każdym filmie z perspektywy pierwszej osoby, jakby był dołączony do niego zestaw poleceń silnika.
W rezultacie DreamDojo generalizuje zero-shot do obiektów i środowisk, które nigdy nie były widziane w żadnym zestawie szkoleniowym robotów, ponieważ ludzie widzieli je jako pierwsi.
Następnie, przeprowadzamy post-szkolenie na każdym robocie, aby dopasować go do jego specyficznego sprzętu. Pomyśl o tym jako o oddzieleniu "jak świat wygląda i się zachowuje" od "jak ten konkretny robot działa". Model bazowy podąża za ogólnymi zasadami fizyki, a następnie "przyczepia się" do unikalnej mechaniki robota. To trochę jak ładowanie nowej postaci i zasobów sceny do Unreal Engine, ale zrealizowane przez spadek gradientu i generalizujące daleko poza zestaw danych po szkoleniu.
Symulator świata jest użyteczny tylko wtedy, gdy działa wystarczająco szybko, aby zamknąć pętlę. Szkolimy wersję DreamDojo w czasie rzeczywistym, która działa z prędkością 10 FPS, stabilną przez ponad minutę ciągłego rozwoju. To odblokowuje ekscytujące możliwości:
- Teleoperacja na żywo *wewnątrz* snu. Podłącz kontroler VR, przesyłaj akcje do DreamDojo i teleoperuj wirtualnym robotem w czasie rzeczywistym. Demonstrujemy to na Unitree G1 z zestawem PICO i jednym RTX 5090.
- Ocena polityki. Możesz ocenić punkt kontrolny polityki w DreamDojo zamiast w rzeczywistym świecie. Współczynniki sukcesu w symulacji silnie korelują z wynikami w rzeczywistym świecie - wystarczająco dokładne, aby ocenić punkty kontrolne bez zużywania jednego silnika.
- Planowanie oparte na modelu. Próbkuj wiele propozycji działań → symuluj je wszystkie równolegle → wybierz najlepszą przyszłość. Zyski +17% sukcesu w rzeczywistym świecie od razu w zadaniu pakowania owoców.
Udostępniamy wszystko jako open-source!! Wagi, kod, zestaw danych po szkoleniu, zestaw ewaluacyjny i dokumentację z mnóstwem szczegółów do reprodukcji. DreamDojo opiera się na NVIDIA Cosmos, który również jest otwarty.
Rok 2026 to rok modeli świata dla fizycznej AI. Chcemy, abyś budował z nami. Szczęśliwego skalowania!
Linki w wątku:
Najlepsze
Ranking
Ulubione
