Мы открываем исходный код Perception Encoder Audiovisual (PE-AV), технического движка, который помогает управлять передовым разделением звука в SAM Audio. Созданный на основе нашей модели Perception Encoder, разработанной ранее в этом году, PE-AV интегрирует аудио с визуальным восприятием, достигая передовых результатов в широком диапазоне аудио и видео тестов. Его родная мультимодальная поддержка может помочь людям в повседневных задачах, включая обнаружение звука и более глубокое понимание аудиовизуальных сцен. 🔗 Читайте статью: 🔗 Скачайте код: