Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Todo el mundo está flipando por el código de vibración. En el espíritu navideño, permitidme compartir mi ansiedad sobre el salvaje oeste de la robótica. 3 lecciones que aprendí en 2025. 1. El hardware está por delante del software, pero la fiabilidad del hardware limita severamente la velocidad de iteración del software. Hemos visto artes de ingeniería exquisitas como Optimus, e-Atlas, Figure, Neo, G1, etc. Nuestra mejor IA no ha exprimido todo el poder de este hardware de frontera. El cuerpo es más capaz de lo que el cerebro puede controlar. Sin embargo, cuidar a estos robots requiere todo un equipo operativo. A diferencia de los humanos, los robots no se curan de los moratones. El sobrecalentamiento, los motores rotos y los extraños problemas de firmware nos atormentan a diario. Los errores son irreversibles e implacables. Mi paciencia era lo único que se llevaba a cabo. 2. El benchmarking sigue siendo un desastre épico en robótica. Los LLM normies pensaban que MMLU y SWE-Bench eran sentido común. Espera 🍺 para robótica. Nadie está de acuerdo en nada: plataforma de hardware, definición de tareas, rúbricas de puntuación, simulador o configuraciones reales. Todos son SOTA, por definición, en el referente que definen sobre la marcha para cada anuncio de noticia. Todos eligen la demo con mejor aspecto entre 100 intentos. Tenemos que mejorar como campo en 2026 y dejar de tratar la reproducibilidad y la disciplina científica como ciudadanos de segunda clase. 3. El VLA basado en VLM se siente mal. VLA significa modelo "visión-lenguaje-acción" y ha sido el enfoque dominante para cerebros robóticos. La receta es sencilla: toma un punto de control VLM preentrenado y añade un módulo de acción encima. Pero si lo piensas, los VLM están hiperoptimizados para superar benchmarks de subida de cuesta como la respuesta visual a preguntas. Esto implica dos problemas: (1) la mayoría de los parámetros en los VLM son para lenguaje y conocimiento, no para física; (2) los codificadores visuales están activamente ajustados para *descartar* detalles de bajo nivel, porque preguntas y respuestas solo requieren comprensión de alto nivel. Pero los detalles minuciosos importan mucho para la destreza. No hay razón para que el rendimiento de VLA escale como escalan los parámetros de VLM. El preentrenamiento está desalineado. El modelo del mundo del vídeo parece ser un objetivo mucho mejor de preentrenamiento para la política de robots. Apuesto mucho a ello.

Populares

Ranking

Favoritas