Il Tongyi Lab del Gruppo Alibaba ha anche rilasciato due modelli open-source insieme a Fun-Audio-Chat della famiglia di modelli vocali Tongyi Fun per completare lo stack dell'AI vocale: Fun-ASR (0.8B) - Riconoscimento vocale multilingue resistente al rumore Fun-CosyVoice 3 (0.5B TTS) - Sintesi vocale espressiva con clonazione vocale zero-shot Fun-ASR gestisce ambienti rumorosi del mondo reale mentre fornisce trascrizioni accurate in tempo reale in più lingue. Analizziamoli👇 #TongyiFun 1/5
2/5 - Dettagli Fun-ASR: La versione open-source 0.8B di Fun-ASR è progettata per condizioni reali con una gestione robusta del rumore e supporto multilingue. *(Nota: Sono disponibili anche versioni closed-source più grandi come distribuzione principale)* Caratteristiche principali: - Gestisce ambienti rumorosi (caffè, strade, uffici) - Supporto per più lingue - Trascrizione in tempo reale - Alta precisione su accenti diversi Casi d'uso: - Trascrizione di riunioni - Call center multilingue - Sottotitoli in tempo reale - Sistemi di comando vocale
3/5 - Fun-CosyVoice 3: Il modello TTS open-source 0.5B offre una generazione di testo in parlato più veloce e più espressiva. (Nota: Versioni closed-source più grandi sono disponibili anche come distribuzione principale) Caratteristiche principali: - Clonazione vocale zero-shot da brevi campioni audio - Generazione vocale cross-linguale - Molti stili di parlato ed emozioni - Prosodia e intonazione naturali Casi d'uso: - Narrazione di audiolibri - Generazione di voiceover - Localizzazione dei contenuti - Sintesi vocale per personaggi
76