Теперь вы можете запускать текст-в-речь с производственной задержкой менее 200 мс. Система TTS с открытым исходным кодом только что выпустила потоковую передачу в реальном времени с аудиовыходом 150 мс. Она поддерживает клонирование голоса без обучения для девяти языков и многих диалектов. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Она передает текст, пока аудио выходит. Нет буферизации полных предложений. Задержка остается низкой без ухудшения качества звука. Это подходит для живых агентов, помощников и интерактивных приложений. • Ввод текста и вывод аудио происходят одновременно • Конечная задержка достигает ~150 мс • Работает с обычными стековыми системами GPU 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Она клонирует голоса без специфического обучения для говорящего. Одного короткого эталонного аудио достаточно. Один и тот же голос передается на разных языках и акцентах. • Поддерживаются девять основных языков • Кросс-языковая синтез остается последовательным • Сходство говорящего остается стабильным 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Вы можете контролировать произношение, скорость, эмоции и громкость. Числа и символы нормализуются автоматически. Это работает как сервис или внутри контейнеров. ...