Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Директор NVIDIA по робототехнике и заслуженный ученый. Соруководитель лаборатории GEAR. Решение физического AGI, по одному двигателю за раз. Стэнфордский доктор философии, 1-й стажер OpenAI.
Я наблюдаю мини-парадокс Моравеца в робототехнике: гимнастика, которая сложна для людей, гораздо легче для роботов, чем "некрасивые" задачи, такие как готовка, уборка и сборка. Это приводит к когнитивному диссонансу у людей вне этой области: "Так, роботы могут паркурить и танцевать брейк-данс, но почему они не могут позаботиться о моей собаке?" Поверьте, меня об этом спрашивали родители больше, чем вы думаете...
"Парадокс робота Моравеца" также создает иллюзию, что физические возможности ИИ намного более развиты, чем они есть на самом деле. Я не выделяю Unitree, так как это касается всех недавних акробатических демонстраций в отрасли. Вот простой тест: если вы поставите стену перед роботом, который делает сальто, он врежется в нее с полной силой и создаст зрелище. Потому что он просто переобучен на этом единственном референсном движении, не осознавая окружающей среды.
Вот почему существует этот парадокс: гораздо легче обучить "слепого гимнаста", чем робота, который видит и манипулирует. Первое можно полностью решить в симуляции и перенести без обучения в реальный мир, в то время как второе требует крайне реалистичной визуализации, физики контакта и сложной динамики объектов в реальном мире - ничего из этого нельзя хорошо смоделировать.
Представьте, что вы можете обучать LLM не из интернета, а из чисто ручной текстовой консольной игры. Робототехники повезло. Мы живем в мире, где ускоренные физические движки настолько хороши, что мы можем добиться впечатляющей акробатики, используя буквально ноль реальных данных. Но мы еще не открыли тот же чит-код для общей ловкости.
До тех пор мы все еще будем подвергаться вопросам от наших озадаченных родителей.
318,96K
Моя планка для ИИ гораздо проще: ИИ, готовящий вкусный ужин в любом доме для любой кухни. Физический тест Тьюринга, вероятно, сложнее Нобелевской премии. Парадокс Моравеца будет продолжать преследовать нас, нависая все больше и темнее в течение следующего десятилетия.

Thomas Wolf19 июл., 16:06
Моя планка для ИИ — это ИИ, который выиграл Нобелевскую премию за новую теорию, которую он сам разработал.
99,02K
Я немного молчал в X в последнее время. Прошлый год стал трансформационным опытом. Grok-4 и Kimi K2 потрясающие, но мир робототехники — это удивительный дикий запад. Это похоже на NLP в 2018 году, когда был опубликован GPT-1, вместе с BERT и тысячами других цветов, которые расцвели. Никто не знал, какой из них в конечном итоге станет ChatGPT. Дебаты были горячими. Энтропия была на высоте. Идеи были безумно интересными.
Я верю, что GPT-1 в робототехнике уже где-то на Arxiv, но мы не знаем точно, какой именно. Это могут быть мировые модели, RL, обучение на видео с участием человека, sim2real, real2sim и т.д., или любая их комбинация. Дебаты горячие. Энтропия на высоте. Идеи безумно интересные, вместо того чтобы выжимать последние несколько процентов на AIME и GPQA.
Природа робототехники также значительно усложняет пространство дизайна. В отличие от чистого мира битов для LLM (строки текста), мы, робототехники, должны иметь дело с грязным миром атомов. В конце концов, в процессе есть кусок программного обеспечения, определяющего металл. Нормальные пользователи LLM могут с трудом в это поверить, но до сих пор робототехники не могут согласовать стандарт! Разные роботы имеют разные возможности — некоторые лучше в акробатике, в то время как другие — в манипуляции с объектами. Некоторые предназначены для промышленного использования, в то время как другие — для домашних задач. Кросс-объектность — это не просто исследовательская новинка, а важная особенность для универсального мозга робота.
Я говорил с десятками руководителей C-suite из различных робототехнических компаний, как старых, так и новых. Некоторые продают целое тело. Некоторые продают части тела, такие как ловкие руки. Многие другие продают лопаты для производства новых тел, создания симуляций или сбора огромных объемов данных. Идеи бизнеса так же дики, как и само исследование. Это новая золотая лихорадка, подобной которой мы не видели с волны ChatGPT 2022 года.
Лучшее время для входа — это когда пик несогласия. Мы все еще на начале кривой потерь — есть сильные признаки жизни, но мы далеки от сходимости. Каждый шаг градиента ведет нас в неизвестность. Но одно я знаю точно — нет AGI без прикосновения, ощущения и воплощения в грязном мире.
На более личной ноте — управление исследовательской лабораторией связано с совершенно новым уровнем ответственности. Давать обновления напрямую CEO компании стоимостью $4 трлн — это, мягко говоря, и захватывающе, и полностью поглощает мое внимание. Ушли те дни, когда я мог быть в курсе и углубляться в каждую новость AI.
Я постараюсь выделить время, чтобы поделиться больше своей историей.

876,94K
Физический тест Тьюринга: ваш дом в полном беспорядке после воскресного хакатона. В понедельник вечером вы возвращаетесь домой и видите безупречно чистую гостиную и ужин при свечах. И вы не можете понять, был ли здесь человек или машина. Обманчиво просто, невероятно сложно.
Это следующая Полярная звезда ИИ. Мечта, которая не дает мне спать в полночь в лаборатории. Видение следующей вычислительной платформы, которая автоматизирует части атомов вместо частей битов.
Спасибо Sequoia за приглашение на AI Ascent! Ниже представлена моя полная лекция о принципах решения задач универсальной робототехники: как мы подходим к стратегии данных и законам масштабирования. Уверяю вас, эти 17 минут вы не пожалеете!
107,21K
Когда-нибудь в следующем десятилетии у нас будут роботы в каждом доме, каждой больнице и фабрике, выполняющие все скучные и опасные работы с сверхчеловеческой ловкостью. Этот день будет известен как «четверг». Даже Тьюринг не осмелился бы представить нашу жизнь в своих самых смелых мечтах.

signüll21 апр. 2025 г.
Мы прошли тест Тьюринга, и никого это не волнует. Никаких парадов. Никаких заголовков на первой странице. Просто... равнодушное пожатие плечами, типа: «О, да, машины теперь достаточно умны, чтобы нас обмануть. Ладно, что на обед?»
Эта тишина говорит всё о скорости, с которой мы движемся.
На моих занятиях по компьютерным наукам тест Тьюринга считался финальным боссом. А теперь каждое прорывное достижение — это просто очередной вторник.
101,94K
гуманоидные олимпийские игры в 2030 году будут настоящим зрелищем

Jim Fan5 февр. 2025 г.
Мы создали гуманоидных роботов, вдохновленных Криштиану Роналду, Леброном Джеймсом и Кобе Брайантом! Это нейронные сети, работающие на реальном оборудовании в нашей лаборатории GEAR. Большинство демонстраций роботов, которые вы видите в интернете, ускоряют видео. Мы на самом деле *замедляем их*, чтобы вы могли насладиться плавными движениями.
Я рад объявить о "ASAP", модели "real2sim2real", которая овладевает исключительно плавными и динамичными движениями для полного управления телом гуманоидов.
Сначала мы предварительно обучаем робота в симуляции, но существует известный "sim2real" разрыв: очень сложно, чтобы физические уравнения, созданные вручную, соответствовали динамике реального мира.
Наше решение простое: просто разверните предварительно обученную политику на реальном оборудовании, соберите данные и воспроизведите движение в симуляции. Воспроизведение, очевидно, будет иметь много ошибок, но это дает богатый сигнал для компенсации физического несоответствия. Используйте другую нейронную сеть, чтобы изучить дельту. В основном, мы "латкаем" традиционный физический движок, чтобы робот мог испытать почти реальный мир в масштабе на GPU.
Будущее — это гибридная симуляция: объедините мощь классических симуляционных движков, отточенных на протяжении десятилетий, и удивительную способность современных нейронных сетей захватывать беспорядочный мир.
45,82K
Мы создали гуманоидных роботов, вдохновленных Криштиану Роналду, Леброном Джеймсом и Кобе Брайантом! Это нейронные сети, работающие на реальном оборудовании в нашей лаборатории GEAR. Большинство демонстраций роботов, которые вы видите в интернете, ускоряют видео. Мы на самом деле *замедляем их*, чтобы вы могли насладиться плавными движениями.
Я рад объявить о "ASAP", модели "real2sim2real", которая овладевает исключительно плавными и динамичными движениями для полного управления телом гуманоидов.
Сначала мы предварительно обучаем робота в симуляции, но существует известный "sim2real" разрыв: очень сложно, чтобы физические уравнения, созданные вручную, соответствовали динамике реального мира.
Наше решение простое: просто разверните предварительно обученную политику на реальном оборудовании, соберите данные и воспроизведите движение в симуляции. Воспроизведение, очевидно, будет иметь много ошибок, но это дает богатый сигнал для компенсации физического несоответствия. Используйте другую нейронную сеть, чтобы изучить дельту. В основном, мы "латкаем" традиционный физический движок, чтобы робот мог испытать почти реальный мир в масштабе на GPU.
Будущее — это гибридная симуляция: объедините мощь классических симуляционных движков, отточенных на протяжении десятилетий, и удивительную способность современных нейронных сетей захватывать беспорядочный мир.
543,13K
Что второй документ с множеством секретов RL flywheel и многомодальным рассуждением в стиле o1 выпал, не было у меня в списке на сегодня. Документы Kimi (другой стартап) и DeepSeek удивительно сошлись в схожих выводах:
> Нет необходимости в сложном дереве поиска, как MCTS. Просто линейно обрабатывайте след мыслей и делайте старое доброе авторегрессионное предсказание;
> Нет необходимости в функциях ценности, которые требуют еще одной дорогой копии модели;
> Нет необходимости в плотном моделировании вознаграждений. Полагайтесь как можно больше на истинные данные, конечный результат.
Различия:
> DeepSeek использует подход AlphaZero - полностью автозапуск через RL без человеческого ввода, т.е. "холодный старт". Kimi использует подход AlphaGo-Master: легкая SFT для разогрева через промпт-инженерные следы CoT.
> Веса DeepSeek имеют лицензию MIT (лидерство в мысли!); у Kimi пока нет выпуска модели.
> Kimi демонстрирует сильные многомодальные результаты (!) на таких бенчмарках, как MathVista, которые требуют визуального понимания геометрии, тестов IQ и т.д.
> Документ Kimi содержит гораздо больше деталей о проектировании системы: инфраструктура RL, гибридный кластер, песочница кода, стратегии параллелизма; и детали обучения: длинный контекст, сжатие CoT, учебный план, стратегия выборки, генерация тестовых случаев и т.д.
Оптимистичное чтение в праздничный день!

300,43K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные