Tongyi Lab al Alibaba Group a lansat, de asemenea, două modele open-source împreună cu Fun-Audio-Chat din familia de modele vocale Tongyi Fun, pentru a completa stack-ul vocal AI: Fun-ASR (0.8B) - Recunoaștere vocală multilingvă robustă la zgomot Fun-CosyVoice 3 (0.5B TTS) - Text-to-speech expresiv cu clonare vocală zero-shot Fun-ASR gestionează medii zgomotoase din lumea reală, oferind în același timp transcrieri exacte în timp real în mai multe limbi. Hai să le descompunem👇 #TongyiFun 1/5
2/5 - Detalii Fun-ASR: Versiunea open-source 0.8B a Fun-ASR este construită pentru condiții reale, cu gestionare robustă a zgomotului și suport multilingv. *(Notă: Versiuni mai mari, closed-source, sunt disponibile și ca implementare principală)* Caracteristici cheie: - Gestionează medii zgomotoase (cafenele, străzi, birouri) - Suport pentru mai multe limbi - Transcriere în timp real - Acuratețe ridicată la accente diverse Cazuri de utilizare: - Transcrierea ședințelor - Centre de apel multilingve - Subtitrări în timp real - Sisteme de comandă vocală
3/5 - Voce-Plăcută 3: Modelul TTS open-source 0.5B oferă o generare text-to-speech mai rapidă și mai expresivă. (Notă: Versiuni mai mari, closed-source, sunt disponibile și ca implementare principală) Caracteristici cheie: - Clonare vocală zero-shot din mostre audio scurte - Generarea vocii cross-lingve - Stiluri și emoții multiple de vorbire - Prozodie naturală și intonație Cazuri de utilizare: - Narațiune audiobook - Generarea de voice-over - Localizarea conținutului - Sinteza vocii personajelor
84