Kami membuka sumber terbuka Perception Encoder Audiovisual (PE-AV), mesin teknis yang membantu mendorong pemisahan audio canggih SAM Audio. Dibangun di atas model Perception Encoder kami dari awal tahun ini, PE-AV mengintegrasikan audio dengan persepsi visual, mencapai hasil canggih di berbagai tolok ukur audio dan video. Dukungan multimoda aslinya dapat membantu orang dalam tugas sehari-hari, termasuk deteksi suara dan pemahaman adegan audio-visual yang lebih kaya. 🔗 Baca makalahnya: 🔗 Unduh kodenya: