Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tongyi Lab al Alibaba Group a oferit open source Fun-Audio-Chat-8B din familia lor de modele vocale Tongyi Fun - un model vocal de tip speech-to-speech (S2S) care folosește cu 50% mai puțin GPU, înțelegând tonul emoțional fără etichete explicite.
Spre deosebire de pipeline-urile tradiționale ASR→LLM→TTS, S2S procesează vocea direct, păstrând tonul, emoția și prozodia cu o latență mai mică.
Empatia vocală: Detectează emoția din ton, ritm, pauze și prozodie – nu doar din cuvinte. Aceeași propoziție de fericire versus tristețe primește un răspuns diferit.
Mai multe detalii👇
#TongyiFun
1/5
2/5 - Instrucțiuni de vorbire după aceea:
Fun-Audio-Chat suportă Speech Instruction-Following, permițând utilizatorilor să controleze atribute de generare a vocii precum emoția, stilul de vorbire, viteza, tonalitatea și volumul prin comenzi vocale naturale.
Exemple:
→ "Vorbește ca un comentator entuziast de esports"
→ "Spune-o cu o voce furioasă, tare și subțire"
→ "Începe plictisit, apoi entuziasmează-te mai tare"
Role play, control acustic, tranziții emoționale – toate sunt suportate.
3/5 - Inovație de bază:
Majoritatea modelelor vocale rulează la rate de cadre între 12,5-25Hz. Fun-Audio-Chat folosește reprezentări vocale cu rezoluție dublă pentru a atinge 5Hz.
Rezultat:
→ ~50% mai puține ore GPU
→ Aceeași calitate a vorbirii
→ Latență mai mică
Acestea sunt modelele S2S revoluționare de eficiență necesare.
4/5 - Chemarea funcției de vorbire:
Execută sarcini prin comenzi vocale naturale: "Setează un cronometru de focalizare de 25 de minute" sau "Navighează de la campusul Alibaba la Grădina Zoologică din Hangzhou"
SOTA printre modelele ~8B pe OpenAudioBench, VoiceBench, UltraEval-Audio pentru:
→ Empatie vocală
→ QA vorbit
→ Înțelegerea audio
→ Apelarea funcției
→ Urmarea instrucțiunilor
219
Limită superioară
Clasament
Favorite
