Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: åpen kildekode, innebygd lyddeteksjon på 14 språk.
Nytt sjekkpunkt for åpen kildekode, åpne data, åpen treningskode, semantisk VAD-modell på @huggingface, @FAL og @pipecat_ai.
- 3 ganger raskere slutning (12 ms på en L40)
- 14 språk (13 mer enn v1, som bare var engelsk)
- Nytt syntetisk datasett 'chirp_3_all' med ~163k lydprøver
- 99 % nøyaktighet på utholdte "human_5_all" testdata
God svingdeteksjon er avgjørende for stemmeagenter. Denne modellen "forstår" både semantiske mønstre og lydmønstre, og reduserer stemme-AI-avveiningen mellom uønsket turforsinkelse kontra agenten som avbryter folk før de er ferdige med å snakke.
Opplæringsskript for både @modal_labs og lokal opplæring er i repositoriet. Vi ønsker å gjøre det så enkelt som mulig å bidra til eller tilpasse denne modellen!
Her er en demo som kjører smart-turn-modellen med standardinnstillinger, rettet mot generelt å nå 400 ms total svingdeteksjonstid. Du kan også justere ting til å være raskere.
Du kan hjelpe ved å bidra med data, gjøre arkitektureksperimenter eller rense data med åpen kildekode! Fortsett å lese ...
36,91K
Topp
Rangering
Favoritter