La mayoría de los benchmarks de VLM observan el mundo; Pocos se preguntan cómo las acciones *cambian* eso desde el ojo de un robot. La cognición incorporada nos dice que la inteligencia no es solo observar, sino que se actúa a través de la interacción. 👉Presentamos ENACT: Un punto de referencia que prueba si los VLM pueden seguir la evolución de un entorno a escala doméstica desde la perspectiva egocéntrica de un robot. 🌐 📄 1/N