Alibaba Group's Tongyi Lab heeft ook twee open-source modellen uitgebracht samen met Fun-Audio-Chat uit de Tongyi Fun stemmodel familie om de stem AI-stack compleet te maken: Fun-ASR (0.8B) - Geluidsrobuste, meertalige spraakherkenning Fun-CosyVoice 3 (0.5B TTS) - Expressieve tekst-naar-spraak met zero-shot stemklonen Fun-ASR gaat om met echte wereld lawaaierige omgevingen terwijl het nauwkeurige realtime transcriptie levert in meerdere talen. Laten we ze opsplitsen👇 #TongyiFun 1/5
2/5 - Fun-ASR Details: De 0.8B open-source versie van Fun-ASR is gebouwd voor real-world omstandigheden met robuuste ruisbehandeling en meertalige ondersteuning. *(Opmerking: Grotere gesloten-source versies zijn ook beschikbaar als de mainstream implementatie)* Belangrijkste kenmerken: - Behandelt lawaaierige omgevingen (cafés, straten, kantoren) - Ondersteuning voor meerdere talen - Real-time transcriptie - Hoge nauwkeurigheid bij diverse accenten Toepassingsgevallen: - Transcriptie van vergaderingen - Meertalige callcenters - Real-time ondertitels - Spraakcommando systemen
3/5 - Fun-CosyVoice 3: Het 0.5B open-source TTS-model levert snellere, meer expressieve tekst-naar-spraak generatie. (Opmerking: Grotere gesloten-source versies zijn ook beschikbaar als de mainstream implementatie) Belangrijkste kenmerken: - Zero-shot stemklonen van korte audiofragmenten - Cross-linguale stemgeneratie - Meerdere spreekstijlen en emoties - Natuurlijke prosodie en intonatie Toepassingsgebieden: - Audioboekvertelling - Voiceover generatie - Inhoudslokalisatie - Karakterstem synthese
89