Bạn giờ có thể tạo ra giọng nói thời gian thực nghe như cuộc trò chuyện. Microsoft vừa mã nguồn mở VibeVoice, một hệ thống chuyển văn bản thành giọng nói thời gian thực với độ trễ âm thanh đầu tiên khoảng 300 ms và đầu vào phát trực tiếp. Nó xử lý các cuộc trò chuyện dài mà không bị rối. 𝗠𝗼𝗱𝗲𝗹 𝗻𝗮̀𝘆 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗲𝘀 𝗹𝗼𝗻𝗴, 𝗺𝘂𝗹𝘁𝗶-𝘀𝗽𝗲𝗮𝗸𝗲𝗿 𝘀𝗽𝗲𝗲𝗰𝗵. Nó sản xuất lên đến 90 phút âm thanh. Nó hỗ trợ tối đa bốn người nói khác nhau. Việc thay phiên nhau vẫn nhất quán trong các phiên dài. 𝗜𝘁 𝘄𝗼𝗿𝗸𝘀 𝗯𝘆 𝗿𝗲𝗱𝘂𝗰𝗶𝗻𝗴 𝘁𝗶𝗺𝗲 𝗿𝗲𝘀𝗼𝗹𝘂𝘁𝗶𝗼𝗻. Âm thanh nén thành các token ngữ nghĩa và âm học. Chúng chạy ở 7.5 Hz thay vì âm thanh cấp khung. Một mô hình ngôn ngữ dự đoán cấu trúc. Một đầu khuếch tán phục hồi chi tiết âm học. 𝗜𝘁 𝗮𝗹𝗹𝗼𝘄𝘀 𝗹𝗼𝘄-𝗹𝗮𝘁𝗲𝗻𝗰𝘆 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗮𝘂𝗱𝗶𝗼. Biến thể thời gian thực phát trực tiếp văn bản một cách dần dần. Giọng nói đầu tiên đến trong khoảng 300 ms. Một bản demo WebSocket cho thấy việc tạo ra trực tiếp. Mã nguồn được cấp phép MIT và chỉ dành cho nghiên cứu. Repo đã vượt qua 20k sao trên GitHub.
1. Thấy điều này hữu ích? Đừng quên theo dõi! Tôi đăng hàng ngày về những đột phá AI mà mọi nhà phát triển cần biết. 2. Rất cảm kích nếu bạn thích/retweet. 3. Cũng đáng để kiểm tra: bản tin, được đọc bởi hơn 250k nhà phát triển AI.
107