Теперь вы можете генерировать речь в реальном времени, которая звучит разговорно. Microsoft только что открыла исходный код VibeVoice, системы синтеза речи в реальном времени с задержкой первого аудио около 300 мс и потоковым вводом. Она справляется с длинными разговорами, не теряя связности. 𝗘𝗧𝗢 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. Она производит до 90 минут аудио. Поддерживает до четырех различных спикеров. Смена говорящих остается последовательной на протяжении долгих сессий. 𝗘𝗧𝗢 𝗿𝗼𝗸𝗼𝗿𝗮𝗯𝗼𝘁𝗮𝗲 𝗯𝗼𝗹𝗼𝗻𝗴 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. Аудио сжимается в семантические и акустические токены. Они работают на частоте 7.5 Гц вместо аудио на уровне кадров. Языковая модель предсказывает структуру. Диффузионная голова восстанавливает акустические детали. 𝗘𝗧𝗢 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. Вариант в реальном времени потоково передает текст по частям. Первая речь появляется примерно через 300 мс. Демо на WebSocket показывает живую генерацию. Код лицензирован по MIT и предназначен только для исследований. Репозиторий уже получил более 20 тысяч звезд на GitHub.
1. Найдено полезным? Не забудьте подписаться! Я ежедневно публикую информацию о прорывах в AI, которые должен знать каждый разработчик. 2. Лайки/ретвиты очень ценятся. 3. Также стоит проверить: рассылку, которую читают более 250 тыс. разработчиков AI.
143