🚀 Presentamos Qwen3-VL-Embedding y Qwen3-VL-Reranker: ¡avanzando el estado del arte en recuperación multimodal y comprensión intermodal! ✨ Resúmenes: ✅ Basado en el robusto modelo de fundación Qwen3-VL ✅ Procesa texto, imágenes, capturas de pantalla, vídeos y entradas de modalidad mixta ✅ Soporta 30+ idiomas ✅ Logra un rendimiento de vanguardia en benchmarks de recuperación multimodal ✅ Código abierto y disponible en Hugging Face, GitHub y ModelScope ✅ ¡Despliegue de API en Alibaba Cloud próximamente! 🎯 Arquitectura de recuperación en dos etapas: 📊 Modelo de Incrustación – genera representaciones vectoriales semánticamente ricas en un espacio de incrustación unificado 🎯 Modelo Reclasificador – calcula puntuaciones de relevancia de grano fino para mejorar la precisión de la recuperación 🔍 Escenarios clave de aplicación: Recuperación de imágenes-texto, búsqueda de vídeo, RAG multimodal, respuesta visual a preguntas, agrupamiento de contenido multimodal, búsqueda visual multilingüe y mucho más. 🌟 Capacidades amigables para desarrolladores: • Dimensiones de incrustación configurables • Personalización de instrucciones específicas para tareas • Integración de soporte de cuantización para un despliegue aguas abajo eficiente y rentable Cara de abrazo: ModelScope: Github: Blog: Informe técnico:
Visión general de la arquitectura Qwen3-VL-Embedding y Qwen3-VL-Reranker.
Resultados de evaluación en los benchmarks MMEB-v2 y MMTEB
105