大多数 VLM 基准关注世界;很少有人问行动如何从机器人的视角 *改变* 它。 具身认知告诉我们,智能不仅仅是观察——它是通过互动来实现的。 👉我们介绍 ENACT:一个基准,测试 VLM 是否能够从机器人的自我中心视角跟踪家庭环境的演变。 🌐 📄 1/N