Genererer egendefinert stemme fra tekst. Produksjonsklar TTS med 1,7 B parametere.