Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Presentamos Qwen3-VL-Embedding y Qwen3-VL-Reranker: ¡avanzando el estado del arte en recuperación multimodal y comprensión intermodal!
✨ Resúmenes:
✅ Basado en el robusto modelo de fundación Qwen3-VL
✅ Procesa texto, imágenes, capturas de pantalla, vídeos y entradas de modalidad mixta
✅ Soporta 30+ idiomas
✅ Logra un rendimiento de vanguardia en benchmarks de recuperación multimodal
✅ Código abierto y disponible en Hugging Face, GitHub y ModelScope
✅ ¡Despliegue de API en Alibaba Cloud próximamente!
🎯 Arquitectura de recuperación en dos etapas:
📊 Modelo de Incrustación – genera representaciones vectoriales semánticamente ricas en un espacio de incrustación unificado
🎯 Modelo Reclasificador – calcula puntuaciones de relevancia de grano fino para mejorar la precisión de la recuperación
🔍 Escenarios clave de aplicación:
Recuperación de imágenes-texto, búsqueda de vídeo, RAG multimodal, respuesta visual a preguntas, agrupamiento de contenido multimodal, búsqueda visual multilingüe y mucho más.
🌟 Capacidades amigables para desarrolladores:
• Dimensiones de incrustación configurables
• Personalización de instrucciones específicas para tareas
• Integración de soporte de cuantización para un despliegue aguas abajo eficiente y rentable
Cara de abrazo:
ModelScope:
Github:
Blog:
Informe técnico:

Visión general de la arquitectura Qwen3-VL-Embedding y Qwen3-VL-Reranker.

Resultados de evaluación en los benchmarks MMEB-v2 y MMTEB

105
Populares
Ranking
Favoritas
