一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

Smart Turn v2：開源，原生音頻轉換檢測支持14種語言。新的開源、新數據、新訓練代碼的檢查點，語義VAD模型在@huggingface、@FAL和@pipecat_ai上。 - 3倍更快的推理（在L40上為12毫秒） - 14種語言（比v1多13種，v1僅支持英語） - 新的合成數據集`chirp_3_all`，包含約163k音頻樣本 - 在保留的`human_5_all`測試數據上達到99%的準確率良好的轉換檢測對於語音代理至關重要。這個模型"理解"語義和音頻模式，並減輕語音AI在不必要的轉換延遲與代理在對方未說完之前打斷的權衡。 @modal_labs和本地訓練的訓練腳本都在庫中。我們希望讓貢獻或自定義這個模型變得盡可能簡單！這裡有一個演示，運行智能轉換模型，使用默認設置，目標是總轉換檢測時間約400毫秒。你也可以調整設置使其更快。你可以通過貢獻數據、進行架構實驗或清理開源數據來幫助！繼續閱讀...

36.92K