🚀 Знайомимося з Qwen3-VL-Embedding та Qwen3-VL-Reranker – просунувши сучасний рівень мультимодального пошуку та крос-модального розуміння! ✨ Основні моменти: ✅ Побудований на міцній моделі фундаменту Qwen3-VL ✅ Обробляє текст, зображення, скріншоти, відео та змішані модальні введення ✅ Підтримує 30+ мов ✅ Досягає найсучаснішої продуктивності на мультимодальних тестах пошуку ✅ Відкритий код і доступний на Hugging Face, GitHub і ModelScope ✅ Розгортання API на Alibaba Cloud незабаром! 🎯 Двоступенева архітектура пошуку: 📊 Embedding Model – генерує семантично багаті векторні представлення в єдиному просторі вкладення 🎯 Модель реранкера — обчислює дрібні оцінки релевантності для підвищення точності пошуку 🔍 Ключові сценарії застосування: Пошук зображень і тексту, відеопошук, мультимодальний RAG, відповіді на візуальні питання, мультимодальне кластеризація контенту, багатомовний візуальний пошук та багато іншого! 🌟 Зручні для розробників можливості: • Налаштовувані розміри вкладення • Індивідуальне налаштування інструкцій для конкретних завдань • Впровадження підтримки квантування для ефективного та економічного впровадження на нижчому етапі Обіймаючи обличчя: ModelScope: Github: Блог: Технічний звіт:
Огляд архітектури Qwen3-VL-Embedding та Qwen3-VL-Reranker.
Результати оцінки бенчмарків MMEB-v2 та MMTEB
59