Cartesia har nettopp sluppet Sonic-3, deres nye flaggskip Text to Speech-modell for sanntidssamtale Sonic-3 leverer tekst-til-tale-strømming med innebygde prosodiske elementer som latter, samt følelser som overraskelse og nysgjerrighet. Den nye modellen støtter 42 språk, inkludert 9 indiske språk. Sonic-3 utnytter en State Space Model (SSM)-arkitektur som Cartesias tidligere utgivelser. Cartesia har vært ledende innen bruk av SSM-er, med andre modeller som vanligvis bruker transformatorbaserte arkitekturer. SSM-er er generelt mer data- og minneeffektive, noe som sannsynligvis bidrar til Sonic-3s relativt imponerende latens. Cartesia tilbyr en abonnements- og kredittprismodell som spenner fra $0 per måned for personlig bruk, opp til $299 per måned for deres Scale-pakke. Sonic-3 har blitt lagt til Artificial Analysis Text to Speech Arena for blind preferansestemmegivning. Lytt til eksempelklipp nedenfor 🎧