Din câte știu, Suno se află la frontiera Pareto a sintezei vocale, deși este destinată muzicii, nu vorbirii. Avantaje: - capacitatea de a genera voci personalizate specificate în text: descrie orice proprietăți calitative despre cum sună vocea și cum este rostită vorbirea - gestionează bine emoțiile - mai puțin plat și robotic decât alte lucruri pe care le-am încercat - suportă looming (ramificarea și continuarea eșantioanelor generate din puncte arbitrare) Dezavantaje: - Încet - fără API - își pierde coerența pe textele lungi - are tendința să intre în piesă sau să insereze instrumentale de fundal chiar dacă ceri doar vorbirea (deși poți exporta stem-urile vocale pentru a elimina instrumentalele) Așadar, este ideal pentru a citi cu voce tare texte scurte, neinteractive, sau pentru a crea voci personalizate care pot fi importate, de exemplu, în Elevenlabs, în ambele cazuri dacă vrei mult control asupra sunetului și personalității vocii. Dacă există o opțiune mai bună, cu mai multe avantaje sau mai puține dezavantaje, mi-ar plăcea să știu despre ea.