Anda sekarang dapat menjalankan text-to-speech tingkat produksi dengan latensi di bawah 200 ms. Sistem TTS sumber terbuka baru saja mengirimkan streaming real-time dengan output audio 150ms. Ini mendukung kloning suara zero-shot di sembilan bahasa dan banyak dialek. Bi-streaming memungkinkan suara real-time Ini mengalirkan teks saat audio mengalir. Tidak ada buffering kalimat penuh. Latensi tetap rendah tanpa menurunkan kualitas audio. Ini cocok untuk agen langsung, asisten, dan aplikasi interaktif. • Teks masuk dan audio keluar berjalan secara bersamaan • Latensi end-to-end mencapai ~150ms • Bekerja dengan tumpukan inferensi GPU standar Kloning suara zero-shot berfungsi di seluruh bahasa Ini mengkloning suara tanpa pelatihan khusus speaker. Satu audio referensi singkat sudah cukup. Suara yang sama ditransfer lintas bahasa dan aksen. • Sembilan bahasa utama didukung • Sintesis lintas bahasa tetap konsisten • Kesamaan speaker tetap stabil Ini menambahkan kontrol yang baik untuk produksi Anda dapat mengontrol pengucapan, kecepatan, emosi, dan volume. Angka dan simbol dinormalisasi secara otomatis. Ini berjalan sebagai layanan atau di dalam kontainer. ...