DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Anda sekarang dapat menghasilkan ucapan real-time yang terdengar percakapan. Microsoft baru saja membuka VibeVoice, sistem text-to-speech real-time dengan latensi audio pertama ~300 ms dan input streaming. Ini menangani percakapan panjang tanpa berantakan. Model ini menghasilkan ucapan multi-speaker yang panjang. Ini menghasilkan audio hingga 90 menit. Ini mendukung hingga empat speaker berbeda. Pengambilan giliran tetap konsisten selama sesi yang panjang. Ini bekerja dengan mengurangi resolusi waktu. Audio dikompresi menjadi token semantik dan akustik. Mereka berjalan pada 7.5 Hz, bukan audio tingkat bingkai. Model bahasa memprediksi struktur. Kepala difusi mengembalikan detail akustik. Ini memungkinkan audio streaming latensi rendah. Varian real-time mengalirkan teks secara bertahap. Pidato pertama tiba dalam ~300 ms. Demo WebSocket menunjukkan generasi langsung. Kode ini berlisensi MIT dan hanya untuk penelitian. Repo sudah melewati 20 ribu bintang GitHub.

1. Menurut ini berguna? Jangan lupa untuk mengikuti! Saya memposting setiap hari tentang terobosan AI yang perlu diketahui setiap pengembang. 2. Suka/retweet sangat dihargai. 3. Juga layak untuk diperiksa: buletin, dibaca oleh 250k+ pengembang AI.

100

Teratas

Peringkat

Favorit