La prévisualisation S2S d'OpenAI est soignée mais elle pense encore en étapes. Parole → texte → modèle → texte → parole. Ce n'est pas ainsi que les humains conversent. Voici Hydra. Un modèle natif de parole à parole qui n'attend pas le tour de parole, ne réduit pas l'émotion en texte, et ne se bloque pas lorsque vous l'interrompez en pleine phrase. Hydra raisonne de manière asynchrone, parle et écoute simultanément, et préserve l'émotion car il ne quitte jamais le domaine audio. C'est encore en version bêta, mais le changement est évident. Si vous voulez un accès anticipé, le lien est dans les commentaires. Voici un aperçu de ce à quoi cela ressemble -