Was ist es bei sprachbasierten Chats mit LLMs, das sie weniger fähig macht? Mit ihnen zu sprechen ist erstaunlich, aber wenn man Medien eingeben oder Medien generieren möchte, können sie das plötzlich nicht mehr. Ist das ein bekanntes Hindernis, das in der Forschung behandelt wird? Oder gibt es nicht genug Nachfrage danach?