Jeg liker hvordan vi har bestemt at multimodal bare betyr "tekst + bilde inn, tekst ut" og enhver annen modalitetskombinasjon er "omni"