AFAIK, Suno è sulla frontiera di Pareto della sintesi vocale, anche se è pensato per la musica piuttosto che per il parlato. pro: - capacità di generare voci personalizzate specificate nel testo: descrivere qualsiasi proprietà qualitativa su come suona la voce e come viene consegnato il discorso - gestisce bene le emozioni - meno piatto e robotico rispetto ad altre cose che ho provato - supporta il looming (ramificazione e continuazione dei campioni generati da punti arbitrari) contro: - lento - nessuna API - perde coerenza su testi lunghi - ha la tendenza a rompere in canzoni o inserire strumentali di sottofondo anche se chiedi solo il parlato (anche se puoi esportare i rami vocali per eliminare gli strumentali) quindi è ideale per leggere ad alta voce testi brevi e non interattivi, o per creare voci personalizzate che possono essere importate in e.g. Elevenlabs, in entrambi i casi se desideri avere molto controllo sul suono e sulla personalità della voce. Se c'è un'opzione migliore con più di questi pro o meno di questi contro, mi piacerebbe saperlo.