Smart Turn v2:開源,原生音頻轉換檢測支持14種語言。 新的開源、新數據、新訓練代碼的檢查點,語義VAD模型在@huggingface、@FAL和@pipecat_ai上。 - 3倍更快的推理(在L40上為12毫秒) - 14種語言(比v1多13種,v1僅支持英語) - 新的合成數據集`chirp_3_all`,包含約163k音頻樣本 - 在保留的`human_5_all`測試數據上達到99%的準確率 良好的轉換檢測對於語音代理至關重要。這個模型"理解"語義和音頻模式,並減輕語音AI在不必要的轉換延遲與代理在對方未說完之前打斷的權衡。 @modal_labs和本地訓練的訓練腳本都在庫中。我們希望讓貢獻或自定義這個模型變得盡可能簡單! 這裡有一個演示,運行智能轉換模型,使用默認設置,目標是總轉換檢測時間約400毫秒。你也可以調整設置使其更快。 你可以通過貢獻數據、進行架構實驗或清理開源數據來幫助!繼續閱讀...
36.92K