Erzeugt eine benutzerdefinierte Stimme aus Text. Produktionsbereite TTS mit 1,7 Milliarden Parametern.