Smart Turn v2: åpen kildekode, innebygd lyddeteksjon på 14 språk. Nytt sjekkpunkt for åpen kildekode, åpne data, åpen treningskode, semantisk VAD-modell på @huggingface, @FAL og @pipecat_ai. - 3 ganger raskere slutning (12 ms på en L40) - 14 språk (13 mer enn v1, som bare var engelsk) - Nytt syntetisk datasett 'chirp_3_all' med ~163k lydprøver - 99 % nøyaktighet på utholdte "human_5_all" testdata God svingdeteksjon er avgjørende for stemmeagenter. Denne modellen "forstår" både semantiske mønstre og lydmønstre, og reduserer stemme-AI-avveiningen mellom uønsket turforsinkelse kontra agenten som avbryter folk før de er ferdige med å snakke. Opplæringsskript for både @modal_labs og lokal opplæring er i repositoriet. Vi ønsker å gjøre det så enkelt som mulig å bidra til eller tilpasse denne modellen! Her er en demo som kjører smart-turn-modellen med standardinnstillinger, rettet mot generelt å nå 400 ms total svingdeteksjonstid. Du kan også justere ting til å være raskere. Du kan hjelpe ved å bidra med data, gjøre arkitektureksperimenter eller rense data med åpen kildekode! Fortsett å lese ...
36,91K