Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Усі панікують через вайб-кодування. У святковому настрої дозвольте поділитися моєю тривогою щодо дикого заходу робототехніки. 3 уроки, які я засвоїв у 2025 році.
1. Апаратне забезпечення випереджає програмне забезпечення, але надійність апаратного забезпечення суттєво обмежує швидкість ітерації програмного забезпечення.
Ми бачили вишукані інженерні мистецтва, такі як Optimus, e-Atlas, Figure, Neo, G1 тощо. Наш найкращий штучний інтелект не використав усі сили з цього фронтирного обладнання. Тіло здатніше за те, що мозок може контролювати. Однак догляд за цими роботами вимагає цілої операційної команди. На відміну від людей, роботи не гояться від синців. Перегрів, зламані двигуни, дивні проблеми з прошивкою переслідують нас щодня. Помилки незворотні і безжальні.
Моє терпіння було єдиним, що впливало.
2. Бенчмаркінг досі є епічною катастрофою в робототехніці.
Студенти LLM вважали, що MMLU та SWE-Bench — це здоровий глузд. Зачекайте 🍺 на робототехніку. Ніхто не погоджується ні щодо чого: апаратної платформи, визначення завдання, рубрики оцінювання, симулятор чи реальні налаштування. Кожен за визначенням є SOTA, орієнтуючись на бенчмарк, який визначає на ходу для кожного новинного оголошення. Кожен вибирає найкраще демо з 100 повторень.
Ми маємо покращити свою галузь у 2026 році і припинити ставитися до відтворюваності та наукової дисципліни як до громадян другого сорту.
3. VLM на основі VLM здається неправильним.
VLA означає модель «зір-мова-дія» і є домінуючим підходом для мозку роботів. Рецепт простий: візьміть попередньо навчену VLM-контрольну точку і прищепіть модуль дій зверху. Але якщо подумати, VLM надто оптимізовані для складних тестів, як-от візуальні відповіді на питання. Це передбачає дві задачі: (1) більшість параметрів у VLM стосуються мови та знань, а не фізики; (2) візуальні енкодери активно налаштовані на *відкидання* низькорівневих деталей, оскільки Q&A потребує лише високого рівня розуміння. Але дрібні деталі дуже важливі для спритності.
Немає жодної причини, щоб продуктивність VLA масштабувалася разом із масштабуванням параметрів VLM. Попереднє навчання неправильно узгоджене. Модель відеосвіту здається набагато кращою метою попереднього навчання для політики роботів. Я ставлю на це велике ставлення.

Найкращі
Рейтинг
Вибране
