Hasta donde sé, Suno está en la frontera de Pareto de la síntesis de voz, aunque está destinado a la música en lugar de al habla. pros: - capacidad de generar voces personalizadas especificadas en texto: describe cualquier propiedad cualitativa sobre cómo suena la voz y cómo se entrega el discurso - maneja bien la emoción - menos plano y robótico que otras cosas que he probado - soporta la continuidad (ramificación y continuación de muestras generadas desde puntos arbitrarios) contras: - lento - sin API - pierde coherencia en textos largos - tiene una tendencia a romper en canción o insertar instrumentales de fondo incluso si pides solo discurso (aunque puedes exportar las pistas vocales para deshacerte de los instrumentales) así que es ideal para leer en voz alta textos cortos y no interactivos, o para crear voces personalizadas que se pueden importar en, por ejemplo, Elevenlabs, en ambos casos si quieres mucho control sobre el sonido y la personalidad de la voz. Si hay una mejor opción con más de estas ventajas o menos de estas desventajas, me encantaría saberlo.