La maggior parte dei benchmark VLM osserva il mondo; pochi si chiedono come le azioni *cambiano* il mondo dalla prospettiva di un robot. La cognizione incarnata ci dice che l'intelligenza non è solo osservare – è realizzata attraverso l'interazione. 👉Introduciamo ENACT: un benchmark che testa se i VLM possono seguire l'evoluzione di un ambiente domestico dalla vista egocentrica di un robot. 🌐 📄 1/N