AFAIK, o Suno está na fronteira de Pareto da síntese de voz, embora seja destinado à música em vez da fala. prós: - capacidade de gerar vozes personalizadas especificadas em texto: descreva quaisquer propriedades qualitativas sobre como a voz soa e como a fala é entregue - lida bem com emoção - menos plana e robótica do que outras coisas que experimentei - suporta looming (ramificação e continuação de amostras geradas a partir de pontos arbitrários) contras: - lento - sem API - perde coerência em textos longos - tem uma tendência a quebrar em canções ou inserir instrumentais de fundo mesmo que você peça apenas fala (embora você possa exportar stems vocais para se livrar dos instrumentais) portanto, é ideal para ler em voz alta textos curtos e não interativos, ou para criar vozes personalizadas que podem ser importadas para, por exemplo, Elevenlabs, em ambos os casos se você quiser ter muito controle sobre o som e a personalidade da voz. Se houver uma opção melhor com mais desses prós ou menos desses contras, adoraria saber sobre isso.