🚀 Представляем Qwen3-VL-Embedding и Qwen3-VL-Reranker – продвигаем передовые технологии в многомодальном поиске и кросс-модальном понимании! ✨ Основные моменты: ✅ Построены на надежной модели-основе Qwen3-VL ✅ Обрабатывают текст, изображения, скриншоты, видео и смешанные модальные входные данные ✅ Поддерживают более 30 языков ✅ Достигают передовых результатов на бенчмарках многомодального поиска ✅ Открытый исходный код и доступны на Hugging Face, GitHub и ModelScope ✅ Развертывание API на Alibaba Cloud скоро! 🎯 Архитектура двухступенчатого поиска: 📊 Модель встраивания – генерирует семантически насыщенные векторные представления в едином пространстве встраивания 🎯 Модель повторного ранжирования – вычисляет детализированные оценки релевантности для повышения точности поиска 🔍 Ключевые сценарии применения: Поиск по изображениям и тексту, поиск видео, многомодальный RAG, визуальные вопросы и ответы, кластеризация многомодального контента, многоязычный визуальный поиск и многое другое! 🌟 Возможности для разработчиков: • Настраиваемые размеры встраивания • Индивидуальная настройка инструкций для конкретных задач • Поддержка квантования встраивания для эффективного и экономичного развертывания в дальнейшем Hugging Face: ModelScope: Github: Блог: Технический отчет:
Обзор архитектуры Qwen3-VL-Embedding и Qwen3-VL-Reranker.
Результаты оценки на бенчмарках MMEB-v2 и MMTEB
133