Alibaba Groups Tongyi Lab släppte också två öppna modeller tillsammans med Fun-Audio-Chat från Tongyi Fun-röstmodellsfamiljen för att komplettera röst-AI-stacken: Fun-ASR (0,8B) - Brusk-stabil, flerspråkig taligenkänning Fun-CosyVoice 3 (0,5B TTS) - Uttrycksfull text-till-tal med zero-shot röstkloning Fun-ASR hanterar verkliga bullriga miljöer samtidigt som det levererar korrekt realtidstranskribering över flera språk. Låt oss bryta ner👇 dem #TongyiFun 1/5
2/5 - Fun-ASR Detaljer: 0,8B öppen källkodsversionen av Fun-ASR är byggd för verkliga förhållanden med robust brushantering och flerspråkigt stöd. *(Obs: Större slutna versioner finns också tillgängliga som den vanliga distributionen)* Nyckelfunktioner: - Hanterar bullriga miljöer (kaféer, gator, kontor) - Stöd för flera språk - Realtidstranskription - Hög noggrannhet på olika accenter Användningsområden: - Mötestranskription - Flerspråkiga callcenter - Undertexter i realtid - Röstkommandosystem
3/5 - Rolig-Mysig Röst 3: 0,5 miljarder öppen källkodsmodell för TTS levererar snabbare och mer uttrycksfull text-till-tal-generering. (Obs: Större slutna versioner finns också tillgängliga som den vanliga distributionen) Nyckelfunktioner: - Zero-shot röstkloning från korta ljudprover - Tvärspråkig röstgenerering - Flera talstilar och känslor - Naturlig prosodi och intonation Användningsområden: - Ljudboksberättarröst - Röstproduktion - Innehållslokalisering - Karaktärsröstsyntes
87