Il Tongyi Lab di Alibaba Group ha open-sourcato Fun-Audio-Chat-8B dalla loro famiglia di modelli vocali Tongyi Fun - un modello vocale speech-to-speech (S2S) che utilizza il 50% in meno di GPU pur comprendendo il tono emotivo senza etichette esplicite. A differenza delle pipeline tradizionali ASR→LLM→TTS, S2S elabora la voce direttamente, preservando tono, emozione e prosodia con una latenza inferiore. Empatia Vocale: Rileva l'emozione dal tono, dal ritmo, dalle pause e dalla prosodia - non solo dalle parole. La stessa frase detta felice rispetto a triste ottiene una risposta diversa. Ulteriori dettagli👇 #TongyiFun 1/5
2/5 - Istruzioni per il Discorso: Fun-Audio-Chat supporta il seguito delle istruzioni vocali, consentendo agli utenti di controllare le caratteristiche della generazione del discorso come emozione, stile di parlato, velocità, tono e volume attraverso comandi vocali naturali. Esempi: → "Parla come un commentatore di esports entusiasta" → "Dillo con una voce arrabbiata, alta e forte" → "Inizia annoiato, poi diventa più entusiasta" Gioco di ruolo, controllo acustico, transizioni emotive - tutto supportato.
3/5 - Innovazione Fondamentale: La maggior parte dei modelli vocali funziona a frame rate di 12,5-25Hz. Fun-Audio-Chat utilizza Rappresentazioni Vocali a Doppia Risoluzione per raggiungere 5Hz. Risultato: → ~50% di ore GPU in meno → Stessa qualità del parlato → Minore latenza Questa è la svolta in termini di efficienza di cui avevano bisogno i modelli S2S.
4/5 - Funzione di Chiamata Vocale: Esegui compiti tramite comandi vocali naturali: "Imposta un timer di concentrazione di 25 minuti" o "Naviga dal campus Alibaba allo Zoo di Hangzhou" SOTA tra ~8B modelli su OpenAudioBench, VoiceBench, UltraEval-Audio per: → Empatia Vocale → QA Parlato → Comprensione Audio → Chiamata di Funzione → Seguire Istruzioni
112