Tongyi Lab al Alibaba Group a oferit open source Fun-Audio-Chat-8B din familia lor de modele vocale Tongyi Fun - un model vocal de tip speech-to-speech (S2S) care folosește cu 50% mai puțin GPU, înțelegând tonul emoțional fără etichete explicite. Spre deosebire de pipeline-urile tradiționale ASR→LLM→TTS, S2S procesează vocea direct, păstrând tonul, emoția și prozodia cu o latență mai mică. Empatia vocală: Detectează emoția din ton, ritm, pauze și prozodie – nu doar din cuvinte. Aceeași propoziție de fericire versus tristețe primește un răspuns diferit. Mai multe detalii👇 #TongyiFun 1/5
2/5 - Instrucțiuni de vorbire după aceea: Fun-Audio-Chat suportă Speech Instruction-Following, permițând utilizatorilor să controleze atribute de generare a vocii precum emoția, stilul de vorbire, viteza, tonalitatea și volumul prin comenzi vocale naturale. Exemple: → "Vorbește ca un comentator entuziast de esports" → "Spune-o cu o voce furioasă, tare și subțire" → "Începe plictisit, apoi entuziasmează-te mai tare" Role play, control acustic, tranziții emoționale – toate sunt suportate.
3/5 - Inovație de bază: Majoritatea modelelor vocale rulează la rate de cadre între 12,5-25Hz. Fun-Audio-Chat folosește reprezentări vocale cu rezoluție dublă pentru a atinge 5Hz. Rezultat: → ~50% mai puține ore GPU → Aceeași calitate a vorbirii → Latență mai mică Acestea sunt modelele S2S revoluționare de eficiență necesare.
4/5 - Chemarea funcției de vorbire: Execută sarcini prin comenzi vocale naturale: "Setează un cronometru de focalizare de 25 de minute" sau "Navighează de la campusul Alibaba la Grădina Zoologică din Hangzhou" SOTA printre modelele ~8B pe OpenAudioBench, VoiceBench, UltraEval-Audio pentru: → Empatie vocală → QA vorbit → Înțelegerea audio → Apelarea funcției → Urmarea instrucțiunilor
219