Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba Groupin Tongyi Lab otti avoimen lähdekoodin Fun-Audio-Chat-8B:n Tongyi Fun -äänimalliperheestään – puheesta puheeksi (S2S) -äänimallin, joka käyttää 50 % vähemmän GPU:ta ja ymmärtää tunnesävyn ilman nimenomaisia merkintöjä.
Toisin kuin perinteiset ASR→LLM→TTS-putket, S2S käsittelee äänen suoraan, säilyttäen sävyn, tunteen ja prosodian pienemmällä viiveellä.
Ääniempatia: Tunnistaa tunteet sävystä, tahdista, tauoista ja prosodiasta – ei pelkästään sanoista. Sama lause, joka sanoo iloinen vs surullinen, saa erilaisen vastauksen.
Lisätietoja👇
#TongyiFun
1/5
2/5 - Puheenopetus seuraa:
Fun-Audio-Chat tukee puheenohjaus-seuraamista, jolloin käyttäjät voivat hallita puheen generointiominaisuuksia, kuten tunnetta, puhetyyliä, nopeutta, sävelkorkeutta ja äänenvoimakkuutta luonnollisten äänikomentojen avulla.
Esimerkkejä:
→ "Puhu kuin innostunut esports-kommentaattori"
→ "Sano se vihaisella, kovalla ja korkealla äänellä"
→ "Aloita tylsistyneenä, sitten innostu enemmän"
Roolileikki, akustinen hallinta, tunnesiirtymät – kaikki tuettu.
3/5 - Ydininnovaatio:
Useimmat äänimallit toimivat 12,5–25Hz kuvataajuuksilla. Fun-Audio-Chat käyttää kaksiresoluutioisia puherepresentaatioita saavuttaakseen 5Hz:n.
Tulos:
→ ~50 % vähemmän GPU-tunteja
→ Sama puheen laatu
→ Alhaisempi viive
Tämä on tehokkuuden läpimurto S2S-malleissa, joita tarvitaan.
4/5 - Puhetoimintojen kutsu:
Suorita tehtäviä luonnollisilla äänikomennoilla: "Aseta 25 minuutin tarkennusajastin" tai "Navigoi Alibaban kampukselta Hangzhoun eläintarhaan"
SOTA ~8B-mallien joukossa OpenAudioBenchissä, VoiceBenchissä, UltraEval-Audiossa:
→ Voice Empathy
→ Puhuttu laadunvarmistus
→ Äänen ymmärtäminen
→ Funktiokutsu
→ Ohjeiden noudattaminen
155
Johtavat
Rankkaus
Suosikit
