私たちは、SAM Audioの最先端の音声分離を支える技術エンジンであるPerception Encoder Audiovisual(PE-AV)をオープンソース化しています。 今年初めのPerception Encoderモデルを基に、PE-AVは音声と視覚的知覚を統合し、幅広い音声および映像ベンチマークで最先端の成果を達成しています。ネイティブのマルチモーダルサポートにより、音の検出やより豊かな視聴覚シーンの理解など、日常の作業を支援できます。 🔗 論文を読んでください: 🔗 コードをダウンロードしてください: