A pré-visualização S2S da OpenAI está polida, mas ainda pensa em etapas. Fala → texto → modelo → texto → fala. Não é assim que os humanos conversam. Apresentando Hydra. Um modelo nativo de fala-para-fala que não espera pela vez de falar, não reduz a emoção a texto e não quebra quando você o interrompe no meio da frase. Hydra raciocina de forma assíncrona, fala e ouve simultaneamente, e preserva a emoção porque nunca sai do domínio do áudio. Ainda está em beta, mas a mudança é óbvia. Se você quiser acesso antecipado, o link está nos comentários. Aqui está uma pré-visualização de como isso se parece -