Apprendre à partir de modèles de texte via des sites textuels et à partir de modèles du monde via des vidéos pourrait être la voie la plus réalisable. Parce que la vidéo représente essentiellement ce que les yeux voient, les humains construisent leur modèle du monde à travers leurs yeux.