Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo el mundo está asustado por la codificación de vibraciones. En el espíritu navideño, permítanme compartir mi ansiedad sobre el salvaje oeste de la robótica. 3 lecciones que aprendí en 2025.
1. El hardware está por delante del software, pero la fiabilidad del hardware limita severamente la velocidad de iteración del software.
Hemos visto artes de ingeniería exquisitas como Optimus, e-Atlas, Figure, Neo, G1, etc. Nuestra mejor IA no ha exprimido todo el jugo de este hardware de frontera. El cuerpo es más capaz de lo que el cerebro puede comandar. Sin embargo, cuidar de estos robots exige un equipo de operaciones completo. A diferencia de los humanos, los robots no sanan de los moretones. El sobrecalentamiento, los motores rotos y los extraños problemas de firmware nos atormentan a diario. Los errores son irreversibles e implacables.
Mi paciencia fue lo único que escaló.
2. La evaluación comparativa sigue siendo un desastre épico en robótica.
Los normies de LLM pensaron que MMLU y SWE-Bench son de sentido común. Aguarda tu 🍺 para la robótica. Nadie está de acuerdo en nada: plataforma de hardware, definición de tareas, rúbricas de puntuación, simulador o configuraciones del mundo real. Todos son SOTA, por definición, en el benchmark que definen sobre la marcha para cada anuncio de noticias. Todos eligen la demostración más atractiva de 100 intentos.
Tenemos que hacerlo mejor como campo en 2026 y dejar de tratar la reproducibilidad y la disciplina científica como ciudadanos de segunda clase.
3. VLM basado en VLA se siente mal.
VLA significa "modelo de visión-lenguaje-acción" y ha sido el enfoque dominante para los cerebros robóticos. La receta es simple: toma un punto de control de VLM preentrenado y injerta un módulo de acción encima. Pero si lo piensas, los VLM están hiperoptimizados para escalar benchmarks como la respuesta a preguntas visuales. Esto implica dos problemas: (1) la mayoría de los parámetros en los VLM son para lenguaje y conocimiento, no para física; (2) los codificadores visuales están activamente ajustados para *descartar* detalles de bajo nivel, porque la Q&A solo requiere comprensión de alto nivel. Pero los detalles minuciosos importan mucho para la destreza.
No hay razón para que el rendimiento de VLA escale a medida que escalan los parámetros de VLM. El preentrenamiento está desalineado. El modelo de mundo de video parece ser un objetivo de preentrenamiento mucho mejor para la política robótica. Estoy apostando fuerte por ello.

Parte superior
Clasificación
Favoritos
