Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Dyrektor ds. robotyki NVIDIA i wybitny naukowiec. Współprowadzący laboratorium GEAR. Rozwiązywanie fizycznego AGI, jeden silnik na raz. Doktorat Stanforda, pierwszy stażysta OpenAI.
Obserwuję mini paradoks Moraveca w robotyce: gimnastyka, która jest trudna dla ludzi, jest znacznie łatwiejsza dla robotów niż "nudne" zadania, takie jak gotowanie, sprzątanie i montaż. Prowadzi to do dysonansu poznawczego dla osób spoza branży: "więc roboty mogą uprawiać parkour i breakdance, ale dlaczego nie mogą zająć się moim psem?" Uwierz mi, moi rodzice pytali mnie o to więcej, niż myślisz ...
"Paradoks Moraveca robotów" tworzy również iluzję, że fizyczne możliwości AI są znacznie bardziej zaawansowane, niż są w rzeczywistości. Nie wskazuję na Unitree, ponieważ dotyczy to szeroko wszystkich ostatnich akrobatycznych pokazów w branży. Oto prosty test: jeśli ustawisz ścianę przed robotem wykonującym salto, uderzy w nią z pełną siłą i stworzy widowisko. Ponieważ po prostu nadmiernie dopasowuje ten pojedynczy ruch referencyjny, nie mając żadnej świadomości otoczenia.
Oto dlaczego ten paradoks istnieje: znacznie łatwiej jest wytrenować "ślepą gimnastyczkę" niż robota, który widzi i manipuluje. Pierwszy problem można całkowicie rozwiązać w symulacji i przenieść bez żadnych prób do rzeczywistego świata, podczas gdy drugi wymaga niezwykle realistycznego renderowania, fizyki kontaktu i chaotycznej dynamiki obiektów w rzeczywistości - żadna z tych rzeczy nie może być dobrze symulowana.
Wyobraź sobie, że możesz trenować LLM-y nie z internetu, ale z czysto ręcznie stworzonym tekstowym konsolowym grą. Robotycy mieli szczęście. Żyjemy w świecie, w którym przyspieszone silniki fizyczne są tak dobre, że możemy osiągnąć imponującą akrobatykę, używając dosłownie zerowych danych rzeczywistych. Ale jeszcze nie odkryliśmy tego samego kodu oszustwa dla ogólnej zręczności.
Do tego czasu nadal będziemy pytani przez naszych zdezorientowanych rodziców.
318,95K
Moja poprzeczka dla AGI jest znacznie prostsza: AI gotujące smaczną kolację w czyimś domu w dowolnej kuchni. Fizyczny test Turinga jest bardzo prawdopodobnie trudniejszy niż Nagroda Nobla. Paradoks Moraveca będzie nas nadal prześladował, stając się coraz większy i ciemniejszy w nadchodzącej dekadzie.

Thomas Wolf19 lip, 16:06
Moim kryterium dla AGI jest AI, które zdobywa Nagrodę Nobla za nową teorię, którą stworzyło.
99,02K
Ostatnio byłem trochę cichy na X. Miniony rok był transformującym doświadczeniem. Grok-4 i Kimi K2 są niesamowite, ale świat robotyki to cudowny dziki zachód. Czuję się jak w NLP w 2018 roku, kiedy opublikowano GPT-1, wraz z BERT i tysiącem innych kwiatów, które zakwitły. Nikt nie wiedział, który z nich ostatecznie stanie się ChatGPT. Debaty były gorące. Entropia była na najwyższym poziomie. Pomysły były niesamowicie zabawne.
Wierzę, że GPT-1 robotyki jest już gdzieś na Arxiv, ale nie wiemy dokładnie, który to. Może to być modele świata, RL, uczenie się z ludzkich wideo, sim2real, real2sim itd., lub jakiekolwiek ich połączenie. Debaty są gorące. Entropia jest na najwyższym poziomie. Pomysły są niesamowicie zabawne, zamiast wyciskać ostatnie kilka % na AIME i GPQA.
Natura robotyki znacznie komplikuje również przestrzeń projektową. W przeciwieństwie do czystego świata bitów dla LLM (ciągi tekstowe), my, robotycy, musimy radzić sobie z chaotycznym światem atomów. W końcu w pętli znajduje się kawałek zdefiniowanego programowo metalu. Normiki LLM mogą mieć trudności w uwierzeniu, ale jak dotąd robotycy wciąż nie mogą się zgodzić co do benchmarku! Różne roboty mają różne możliwości - niektóre są lepsze w akrobatyce, podczas gdy inne w manipulacji obiektami. Niektóre są przeznaczone do użytku przemysłowego, podczas gdy inne do zadań domowych. Cross-embodiment to nie tylko nowość badawcza, ale niezbędna cecha dla uniwersalnego mózgu robota.
Rozmawiałem z dziesiątkami liderów C-suite z różnych firm robotycznych, starych i nowych. Niektórzy sprzedają całe ciała. Niektórzy sprzedają części ciała, takie jak zręczne ręce. Wiele innych sprzedaje łopaty do produkcji nowych ciał, tworzenia symulacji lub zbierania ogromnych zbiorów danych. Przestrzeń pomysłów biznesowych jest tak dzika jak sama badania. To nowa gorączka złota, jakiej nie widzieliśmy od fali ChatGPT w 2022 roku.
Najlepszy czas na wejście to moment, gdy szczyty niezgody. Wciąż jesteśmy na początku krzywej strat - są silne oznaki życia, ale daleko, daleko od zbieżności. Każdy krok gradientowy prowadzi nas w nieznane. Ale jedno wiem na pewno - nie ma AGI bez dotykania, czucia i bycia ucieleśnionym w chaotycznym świecie.
Na bardziej osobistą nutę - prowadzenie laboratorium badawczego wiąże się z zupełnie nowym poziomem odpowiedzialności. Informowanie bezpośrednio CEO firmy o wartości 4 bilionów dolarów jest, delikatnie mówiąc, zarówno ekscytujące, jak i całkowicie pochłaniające moją uwagę. Minęły czasy, kiedy mogłem być na bieżąco i zagłębiać się w każdą wiadomość AI.
Postaram się znaleźć czas, aby podzielić się więcej moją podróżą.

876,93K
Fizyczny test Turinga: po niedzielnym hackathonie w twoim domu panuje kompletny bałagan. W poniedziałkowy wieczór wracasz do domu do nieskazitelnego salonu i kolacji przy świecach. I nie można było stwierdzić, czy był tam człowiek, czy maszyna. Zwodniczo proste, szalenie trudne.
To kolejna Gwiazda Polarna AI. Sen, który nie pozwala mi zasnąć o 12 w nocy w laboratorium. Wizja kolejnej platformy obliczeniowej, która automatyzuje fragmenty atomów zamiast fragmentów bitów.
Dziękuję Sequoia za goszczenie mnie na AI Ascent! Poniżej znajduje się mój pełny wykład na temat pierwszych zasad rozwiązywania problemów robotyki ogólnego przeznaczenia: jak myślimy o strategii danych i prawach skalowania. Zapewniam Cię, że będzie to 17 minut, których nie pożałujesz!
107,2K
Pewnego dnia, w ciągu następnej dekady, w każdym domu, w każdym szpitalu i fabryce pojawią się roboty, które będą wykonywać każdą nudną i niebezpieczną pracę z nadludzką zręcznością. Ten dzień będzie znany jako "czwartek". Nawet Turing nie odważyłby się wymarzyć naszego życia w swoich najśmielszych snach.

signüll21 kwi 2025
Przeszliśmy test Turinga i nikogo to nie obchodziło. Żadnych parad. Brak nagłówków na pierwszych stronach gazet. właśnie... Wzruszenie ramionami. Na przykład: "O tak, maszyny są na tyle inteligentne, że mogą nas teraz oszukać. W każdym razie, co jest na lunch?
Ta cisza mówi wszystko o tempie, w jakim się poruszamy.
Na moich zajęciach z CS test Turinga był traktowany jak ostateczny boss. Teraz każdy przełom to kolejny cholerny wtorek.
101,93K
olimpiada humanoidów w 2030 roku będzie prawdziwym widowiskiem

Jim Fan5 lut 2025
Zrealizowaliśmy humanoidalne roboty w stylu Cristiano Ronaldo, LeBrona Jamesa i Kobe Bryanta! To są sieci neuronowe działające na prawdziwym sprzęcie w naszym laboratorium GEAR. Większość pokazów robotów, które widzisz w Internecie, przyspiesza filmy. My *spowalniamy je*, abyś mógł cieszyć się płynnymi ruchami.
Z radością ogłaszam "ASAP", model "real2sim2real", który opanowuje niezwykle płynne i dynamiczne ruchy do pełnej kontroli nad ciałem humanoidalnym.
Najpierw wstępnie szkolimy robota w symulacji, ale istnieje notorious "sim2real" gap: bardzo trudno jest, aby ręcznie zaprojektowane równania fizyczne odpowiadały dynamice rzeczywistego świata.
Nasze rozwiązanie jest proste: wystarczy wdrożyć wstępnie wytrenowaną politykę na prawdziwym sprzęcie, zbierać dane i odtwarzać ruch w symulacji. Odtwarzanie oczywiście będzie miało wiele błędów, ale to daje bogaty sygnał do skompensowania różnicy w fizyce. Użyj innej sieci neuronowej, aby nauczyć się delty. W zasadzie "naprawiamy" tradycyjny silnik fizyczny, aby robot mógł doświadczyć prawie rzeczywistego świata w skali na GPU.
Przyszłość to hybrydowa symulacja: połączenie mocy klasycznych silników symulacyjnych udoskonalanych przez dziesięciolecia i niezwykłej zdolności nowoczesnych sieci neuronowych do uchwycenia chaotycznego świata.
45,82K
Zrealizowaliśmy humanoidalne roboty w stylu Cristiano Ronaldo, LeBrona Jamesa i Kobe Bryanta! To są sieci neuronowe działające na prawdziwym sprzęcie w naszym laboratorium GEAR. Większość pokazów robotów, które widzisz w Internecie, przyspiesza filmy. My *spowalniamy je*, abyś mógł cieszyć się płynnymi ruchami.
Z radością ogłaszam "ASAP", model "real2sim2real", który opanowuje niezwykle płynne i dynamiczne ruchy do pełnej kontroli nad ciałem humanoidalnym.
Najpierw wstępnie szkolimy robota w symulacji, ale istnieje notorious "sim2real" gap: bardzo trudno jest, aby ręcznie zaprojektowane równania fizyczne odpowiadały dynamice rzeczywistego świata.
Nasze rozwiązanie jest proste: wystarczy wdrożyć wstępnie wytrenowaną politykę na prawdziwym sprzęcie, zbierać dane i odtwarzać ruch w symulacji. Odtwarzanie oczywiście będzie miało wiele błędów, ale to daje bogaty sygnał do skompensowania różnicy w fizyce. Użyj innej sieci neuronowej, aby nauczyć się delty. W zasadzie "naprawiamy" tradycyjny silnik fizyczny, aby robot mógł doświadczyć prawie rzeczywistego świata w skali na GPU.
Przyszłość to hybrydowa symulacja: połączenie mocy klasycznych silników symulacyjnych udoskonalanych przez dziesięciolecia i niezwykłej zdolności nowoczesnych sieci neuronowych do uchwycenia chaotycznego świata.
543,12K
To, że *drugi* dokument został opublikowany z mnóstwem sekretów dotyczących koła zamachowego RL i *multimodalnego* rozumowania w stylu o1, nie było na mojej liście rzeczy do zrobienia dzisiaj. Prace Kimi (inny startup) i DeepSeek zaskakująco zbieżnie wykazały podobne wyniki:
> Nie ma potrzeby skomplikowanego przeszukiwania drzew, jak MCTS. Po prostu zlinearizuj ślad myśli i wykonaj dobrą, starą autoregresywną prognozę;
> Nie ma potrzeby funkcji wartości, które wymagają kolejnej kosztownej kopii modelu;
> Nie ma potrzeby gęstego modelowania nagród. Polegaj jak najwięcej na prawdziwych danych, końcowym wyniku.
Różnice:
> DeepSeek stosuje podejście AlphaZero - czysto bootstrap przez RL bez ludzkiego wkładu, tzn. "zimny start". Kimi stosuje podejście AlphaGo-Master: lekkie SFT, aby rozgrzać przez zaprojektowane podpowiedzi ślady CoT.
> Wagi DeepSeek są na licencji MIT (przywództwo myślowe!); Kimi jeszcze nie ma wydania modelu.
> Kimi pokazuje silne multimodalne wyniki (!) w benchmarkach takich jak MathVista, które wymagają wizualnego zrozumienia geometrii, testów IQ itp.
> Dokument Kimi zawiera znacznie więcej szczegółów dotyczących projektowania systemu: infrastruktura RL, hybrydowy klaster, piaskownica kodu, strategie równoległości; oraz szczegóły uczenia: długi kontekst, kompresja CoT, program nauczania, strategia próbkowania, generowanie przypadków testowych itp.
Optymistyczne lektury na wakacje!

300,43K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi