Bạn có thể chạy hệ thống chuyển văn bản thành giọng nói với độ trễ dưới 200ms. Một hệ thống TTS mã nguồn mở vừa mới phát hành tính năng phát trực tiếp thời gian thực với đầu ra âm thanh 150ms. Nó hỗ trợ việc nhân bản giọng nói không cần đào tạo qua chín ngôn ngữ và nhiều phương ngữ. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Nó phát văn bản vào trong khi âm thanh phát ra ngoài. Không có việc đệm câu hoàn chỉnh. Độ trễ vẫn thấp mà không làm giảm chất lượng âm thanh. Điều này phù hợp với các đại lý trực tiếp, trợ lý và ứng dụng tương tác. • Văn bản vào và âm thanh ra hoạt động đồng thời • Độ trễ từ đầu đến cuối đạt khoảng ~150ms • Hoạt động với các ngăn xếp suy diễn GPU tiêu chuẩn 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Nó nhân bản giọng nói mà không cần đào tạo cụ thể cho người nói. Một đoạn âm thanh tham chiếu ngắn là đủ. Giọng nói giống nhau có thể chuyển giao qua các ngôn ngữ và giọng điệu. • Hỗ trợ chín ngôn ngữ chính • Tổng hợp xuyên ngôn ngữ vẫn nhất quán • Sự tương đồng giữa các người nói vẫn ổn định 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Bạn có thể kiểm soát phát âm, tốc độ, cảm xúc và âm lượng. Các số và ký hiệu tự động được chuẩn hóa. Nó hoạt động như một dịch vụ hoặc bên trong các container. ...