Pelo que sei, Suno está na fronteira de Pareto da síntese de voz, mesmo sendo feita para música e não para fala. Prós: - capacidade de gerar vozes personalizadas especificadas em texto: descreva quaisquer propriedades qualitativas sobre como a voz soa e como a fala é entregue - lida bem com emoções - menos plano e robótico do que outras coisas que já tentei - suporta o aparecimento (ramificação e continuidade de amostras geradas a partir de pontos arbitrários) Contras: - devagar - sem API - perde coerência em textos longos - tem tendência a interromper a música ou inserir instrumentais de fundo mesmo que você peça apenas fala (embora seja possível exportar stems vocais para eliminar instrumentais) Portanto, é ideal para ler em voz alta textos curtos e não interativos, ou para criar vozes personalizadas que podem ser importadas, por exemplo, para o Elevenlabs, em ambos os casos, se você quiser muito controle sobre o som e a personalidade da voz. Se houver uma opção melhor com mais desses prós ou menos desvantagens, adoraria saber sobre ela.