Agora você pode rodar texto para fala de produção com latência abaixo de 200ms. Um sistema TTS open-source acabou de lançar streaming em tempo real com saída de áudio de 150ms. Ele suporta clonagem de voz zero-shot em nove idiomas e muitos dialetos. O bi-streaming permite voz em tempo real Ele transmite texto enquanto o áudio sai em streaming. Sem buffer de frases completas. A latência permanece baixa sem degradar a qualidade do áudio. Isso se encaixa em agentes ao vivo, assistentes e aplicativos interativos. • Entrada de texto e saída de áudio executadas simultaneamente • Latência ponta a ponta chega a ~150ms • Funciona com pilhas padrão de inferência de GPU Clonagem de voz zero-shot funciona em vários idiomas Ele clona vozes sem treinamento específico para o alto-falante. Um áudio de referência curto já é suficiente. A mesma voz se transfere entre línguas e sotaques. • Nove linguagens principais suportadas • A síntese cross-lingual mantém-se consistente • A similaridade dos alto-falantes permanece estável Isso adiciona controle fino para a produção Você pode controlar pronúncia, velocidade, emoção e volume. Números e símbolos se normalizam automaticamente. Ele funciona como serviço ou dentro de contêineres. ...