Grupa Alibaba z Tongyi Lab również wydała dwa modele open-source wraz z Fun-Audio-Chat z rodziny modeli głosowych Tongyi Fun, aby uzupełnić stos AI głosowego: Fun-ASR (0.8B) - Odporny na hałas, wielojęzyczne rozpoznawanie mowy Fun-CosyVoice 3 (0.5B TTS) - Ekspresywna synteza mowy z klonowaniem głosu w trybie zero-shot Fun-ASR radzi sobie w hałaśliwych warunkach rzeczywistych, jednocześnie dostarczając dokładną transkrypcję w czasie rzeczywistym w wielu językach. Rozłóżmy je na czynniki👇 #TongyiFun 1/5
2/5 - Szczegóły Fun-ASR: Wersja open-source 0.8B Fun-ASR została stworzona do warunków rzeczywistych z solidnym zarządzaniem hałasem i wsparciem dla wielu języków. *(Uwaga: Dostępne są również większe wersje closed-source jako główne wdrożenie)* Kluczowe cechy: - Obsługuje hałaśliwe środowiska (kawiarnie, ulice, biura) - Wsparcie dla wielu języków - Transkrypcja w czasie rzeczywistym - Wysoka dokładność w przypadku różnych akcentów Przykłady zastosowania: - Transkrypcja spotkań - Wielojęzyczne centra obsługi klienta - Napisy w czasie rzeczywistym - Systemy poleceń głosowych
3/5 - Fun-CosyVoice 3: Model TTS o otwartym kodzie źródłowym 0.5B zapewnia szybsze i bardziej ekspresyjne generowanie mowy z tekstu. (Uwaga: Większe wersje zamkniętego kodu są również dostępne jako główne wdrożenie) Kluczowe cechy: - Klonowanie głosu w trybie zero-shot z krótkich próbek audio - Generowanie głosu w różnych językach - Wiele stylów mówienia i emocji - Naturalna prozodia i intonacja Przykłady zastosowania: - Narracja audiobooków - Generowanie głosu do filmów - Lokalizacja treści - Synteza głosu postaci
80