Alibaba Group'un Tongyi Lab'ı da Tongyi Fun ses model ailesinden Fun-Audio-Chat ile birlikte iki açık kaynak model yayımlayarak ses yapay zekası yığını tamamladı: Fun-ASR (0.8B) - Gürültü sağlam, çok dilli konuşma tanıma Fun-CosyVoice 3 (0.5B TTS) - Sıfır ses klonlama ile ifade edici metin-konuşma Fun-ASR, gerçek dünyadaki gürültülü ortamları yönetirken birden fazla dil arasında doğru gerçek zamanlı transkripsiyon sağlar. Onları parçalara👇 ayıralım #TongyiFun 1/5
2/5 - Eğlence-ASR Detayları: Fun-ASR'nin 0.8B açık kaynak sürümü, sağlam gürültü yönetimi ve çok dilli destek ile gerçek dünya koşulları için tasarlanmıştır. *(Not: Daha büyük kapalı kaynak sürümler ana akım dağıtım olarak da mevcuttur)* Temel özellikler: - Gürültülü ortamları (kafeler, sokaklar, ofisler) yönetir - Çoklu dil desteği - Gerçek zamanlı transkripsiyon - Çeşitli aksanlarda yüksek hassasiyet Kullanım durumları: - Toplantı transkripsiyonu - Çok dilli çağrı merkezleri - Gerçek zamanlı altyazılar - Sesli komut sistemleri
3/5 - Eğlence-Rahat Ses 3: 0.5B açık kaynaklı TTS modeli, daha hızlı ve daha ifade edici metinden konuşmaya üretim sağlar. (Not: Daha büyük kapalı kaynak sürümler ana akım dağıtım olarak da mevcuttur) Temel özellikler: - Kısa ses örneklerinden sıfır atış ses klonlama - Dillerarası ses üretimi - Çoklu konuşma tarzı ve duygular - Doğal prozodi ve tonasyon Kullanım durumları: - Sesli kitap anlatımı - Seslendirme üretimi - İçerik yerelleştirme - Karakter ses sentezi
99