🚀 Presentamos Qwen3-VL-Embedding y Qwen3-VL-Reranker – ¡avanzando el estado del arte en la recuperación multimodal y la comprensión cruzada de modalidades! ✨ Destacados: ✅ Construido sobre el robusto modelo base Qwen3-VL ✅ Procesa texto, imágenes, capturas de pantalla, videos y entradas de modalidad mixta ✅ Soporta más de 30 idiomas ✅ Logra un rendimiento de vanguardia en los benchmarks de recuperación multimodal ✅ Código abierto y disponible en Hugging Face, GitHub y ModelScope ✅ ¡Despliegue de API en Alibaba Cloud próximamente! 🎯 Arquitectura de recuperación en dos etapas: 📊 Modelo de Embedding – genera representaciones vectoriales semánticamente ricas en un espacio de embedding unificado 🎯 Modelo Reranker – calcula puntuaciones de relevancia detalladas para una mayor precisión en la recuperación 🔍 Principales escenarios de aplicación: Recuperación de imagen-texto, búsqueda de videos, RAG multimodal, respuesta a preguntas visuales, agrupamiento de contenido multimodal, búsqueda visual multilingüe, ¡y más! 🌟 Capacidades amigables para desarrolladores: • Dimensiones de embedding configurables • Personalización de instrucciones específicas para tareas • Soporte para cuantización de embeddings para un despliegue eficiente y rentable en downstream Hugging Face: ModelScope: Github: Blog: Informe técnico:
Descripción general de la arquitectura Qwen3-VL-Embedding y Qwen3-VL-Reranker.
Resultados de la evaluación en los benchmarks MMEB-v2 y MMTEB
103