Все в панике из-за кодирования настроений. В праздничном духе позвольте мне поделиться своим беспокойством о диком западе робототехники. 3 урока, которые я усвоил в 2025 году. 1. Аппаратное обеспечение опережает программное, но надежность аппаратного обеспечения серьезно ограничивает скорость итерации программного обеспечения. Мы видели изысканные инженерные достижения, такие как Optimus, e-Atlas, Figure, Neo, G1 и т.д. Наши лучшие ИИ не извлекли все соки из этого передового аппаратного обеспечения. Тело более способно, чем то, что может командовать мозг. Тем не менее, присмотр за этими роботами требует целой команды операций. В отличие от людей, роботы не заживают от синяков. Перегрев, сломанные моторы, странные проблемы с прошивкой преследуют нас ежедневно. Ошибки необратимы и беспощадны. Мое терпение было единственным, что масштабировалось. 2. Бенчмаркинг по-прежнему является эпической катастрофой в робототехнике. Нормальные пользователи LLM думали, что MMLU и SWE-Bench — это здравый смысл. Удержите свой 🍺 для робототехники. Никто не согласен ни с чем: аппаратная платформа, определение задач, оценочные рубрики, симулятор или реальные настройки. Каждый по определению является SOTA на бенчмарке, который они определяют на лету для каждого новостного объявления. Каждый выбирает самый красивый демонстрационный вариант из 100 попыток. Мы должны делать лучше в этой области в 2026 году и прекратить относиться к воспроизводимости и научной дисциплине как к гражданам второго сорта. 3. VLM-основанный VLA кажется неправильным. VLA означает "модель визуально-языкового действия" и является доминирующим подходом для мозгов роботов. Рецепт прост: возьмите предобученный контрольный пункт VLM и добавьте модуль действий сверху. Но если подумать, VLM гипероптимизированы для достижения бенчмарков, таких как визуальный вопрос-ответ. Это подразумевает две проблемы: (1) большинство параметров в VLM предназначены для языка и знаний, а не для физики; (2) визуальные кодировщики активно настраиваются на *отбрасывание* низкоуровневых деталей, потому что Q&A требует только высокого уровня понимания. Но мелкие детали имеют большое значение для ловкости. Нет причин, по которым производительность VLA должна масштабироваться по мере масштабирования параметров VLM. Предобучение не согласовано. Модель видео мира кажется гораздо лучшей целью предобучения для политики робота. Я ставлю на это большие деньги.