DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Vous pouvez désormais générer une parole en temps réel qui sonne de manière conversationnelle. Microsoft vient de rendre open-source VibeVoice, un système de synthèse vocale en temps réel avec une latence audio initiale d'environ 300 ms et une entrée en streaming. Il gère de longues conversations sans s'effondrer. 𝗖𝗲 𝗺𝗼𝗱𝗲𝗹𝗲 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲 𝗱𝗲 𝗹𝗼𝗻𝗴𝘂𝗲𝘀, 𝗽𝗮𝗿𝗼𝗹𝗲𝘀 𝗺𝘂𝗹𝘁𝗶-𝗽𝗮𝗿𝗹𝗲𝘂𝗿𝘀. Il produit jusqu'à 90 minutes d'audio. Il prend en charge jusqu'à quatre locuteurs distincts. Le tour de parole reste cohérent lors de longues sessions. 𝗜𝗹 𝗮𝗹𝗹𝗼𝗻𝗰𝗲 𝗹𝗮 𝗹𝗮𝘁𝗲𝗻𝗰𝗲 𝗮𝗯𝗮𝗶𝘀𝘀𝗲 𝗱𝗲 𝘁𝗲𝗺𝗽𝘀. L'audio se compresse en tokens sémantiques et acoustiques. Ils fonctionnent à 7,5 Hz au lieu de l'audio au niveau des images. Un modèle de langage prédit la structure. Une tête de diffusion restaure les détails acoustiques. 𝗜𝗹 𝗮𝗹𝗹𝗼𝗻𝗰𝗲 𝗹𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼 𝗮𝘂𝘁𝗼𝗿𝗶𝘀𝗲 𝗹𝗮 𝗹𝗮𝘁𝗲𝗻𝗰𝗲 𝗮𝗯𝗮𝗶𝘀𝘀𝗲. La variante en temps réel diffuse le texte de manière incrémentielle. Le premier discours arrive en ~300 ms. Une démo WebSocket montre la génération en direct. Le code est sous licence MIT et réservé à la recherche. Le dépôt a déjà dépassé 20k étoiles sur GitHub.

1. Trouvé cela utile ? N'oubliez pas de suivre ! Je publie quotidiennement sur les avancées de l'IA que chaque développeur doit connaître. 2. Les likes/retweets sont très appréciés. 3. Également à vérifier : la newsletter, lue par plus de 250k développeurs IA.

106

Meilleurs

Classement

Favoris