Alibaba Group đã mã nguồn mở Fun-Audio-Chat-8B từ gia đình mô hình giọng nói Tongyi Fun của họ - một mô hình giọng nói chuyển đổi giọng nói thành giọng nói (S2S) sử dụng ít GPU hơn 50% trong khi hiểu được tông giọng cảm xúc mà không cần nhãn rõ ràng. Khác với các quy trình ASR→LLM→TTS truyền thống, S2S xử lý giọng nói trực tiếp, bảo tồn tông giọng, cảm xúc và nhịp điệu với độ trễ thấp hơn. Đồng cảm giọng nói: Phát hiện cảm xúc từ tông giọng, nhịp độ, khoảng dừng và nhịp điệu - không chỉ từ từ ngữ. Câu giống nhau được nói vui vẻ so với buồn bã sẽ nhận được phản hồi khác nhau. Chi tiết hơn👇 #TongyiFun 1/5
2/5 - Hướng dẫn theo dõi lời nói: Fun-Audio-Chat hỗ trợ theo dõi hướng dẫn lời nói, cho phép người dùng điều khiển các thuộc tính tạo ra lời nói như cảm xúc, phong cách nói, tốc độ, cao độ và âm lượng thông qua các lệnh giọng nói tự nhiên. Ví dụ: → "Nói như một bình luận viên esports phấn khích" → "Nói với giọng tức giận, lớn, cao" → "Bắt đầu chán nản, sau đó trở nên phấn khích hơn" Đóng vai, điều khiển âm thanh, chuyển tiếp cảm xúc - tất cả đều được hỗ trợ.
3/5 - Đổi mới cốt lõi: Hầu hết các mô hình giọng nói hoạt động ở tốc độ khung hình 12.5-25Hz. Fun-Audio-Chat sử dụng Đại diện Giọng nói Độ phân giải Kép để đạt được 5Hz. Kết quả: → ~50% giờ GPU ít hơn → Chất lượng giọng nói tương đương → Độ trễ thấp hơn Đây là bước đột phá về hiệu suất mà các mô hình S2S cần.
4/5 - Chức năng gọi thoại: Thực hiện các tác vụ thông qua lệnh giọng nói tự nhiên: "Đặt hẹn giờ tập trung 25 phút" hoặc "Dẫn đường từ khuôn viên Alibaba đến Vườn thú Hàng Châu" SOTA trong số ~8B mô hình trên OpenAudioBench, VoiceBench, UltraEval-Audio cho: → Đồng cảm giọng nói → QA nói → Hiểu âm thanh → Gọi chức năng → Thực hiện theo hướng dẫn
121