Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Теперь вы можете генерировать речь в реальном времени, которая звучит разговорно.
Microsoft только что открыла исходный код VibeVoice, системы синтеза речи в реальном времени с задержкой первого аудио около 300 мс и потоковым вводом.
Она справляется с длинными разговорами, не теряя связности.
𝗘𝗧𝗢 𝗺𝗼𝗱𝗲𝗹 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵.
Она производит до 90 минут аудио.
Поддерживает до четырех различных спикеров.
Смена говорящих остается последовательной на протяжении долгих сессий.
𝗘𝗧𝗢 𝗿𝗼𝗸𝗼𝗿𝗮𝗯𝗼𝘁𝗮𝗲 𝗯𝗼𝗹𝗼𝗻𝗴 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻.
Аудио сжимается в семантические и акустические токены.
Они работают на частоте 7.5 Гц вместо аудио на уровне кадров.
Языковая модель предсказывает структуру.
Диффузионная голова восстанавливает акустические детали.
𝗘𝗧𝗢 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼.
Вариант в реальном времени потоково передает текст по частям.
Первая речь появляется примерно через 300 мс.
Демо на WebSocket показывает живую генерацию.
Код лицензирован по MIT и предназначен только для исследований.
Репозиторий уже получил более 20 тысяч звезд на GitHub.
1. Найдено полезным? Не забудьте подписаться! Я ежедневно публикую информацию о прорывах в AI, которые должен знать каждый разработчик.
2. Лайки/ретвиты очень ценятся.
3. Также стоит проверить: рассылку, которую читают более 250 тыс. разработчиков AI.
143
Топ
Рейтинг
Избранное
