Qual è il problema delle chat vocali con i LLM che le rende meno capaci? Parlare con loro è fantastico, ma se vuoi inserire media o generare media all'improvviso non possono farlo. È un ostacolo noto che è oggetto di ricerca? O non c'è abbastanza domanda per questo?