Såvitt jag vet befinner sig Suno på Pareto-fronten av röstsyntes, även om det är tänkt för musik snarare än tal. Fördelar: - förmåga att generera anpassade röster specificerade i text: beskriv kvalitativa egenskaper om hur rösten låter och hur talet levereras - hanterar känslor bra – mindre platt och robotlik än andra saker jag har provat - stödjer looming (förgrening och fortlöpande genererade samples från godtyckliga punkter) Nackdelar: - långsamt - inget API - förlorar sammanhang över långa texter - har en tendens att bryta ut i sång eller infoga bakgrundsinstrumentaler även om du bara ber om tal (även om du kan exportera vokalstämmor för att bli av med instrumentaler) så det är idealiskt för att läsa högt korta, icke-interaktiva texter, eller för att skapa egna röster som kan importeras till t.ex. Elevenlabs, i båda fallen om du vill ha mycket kontroll över röstens ljud och personlighet. Om det finns ett bättre alternativ med fler av dessa fördelar eller färre nackdelar, skulle jag gärna vilja veta om det.