🚀 Apresentando Qwen3-VL-Embedding e Qwen3-VL-Reranker – avançando o estado da arte em recuperação multimodal e compreensão cross-modal! ✨ Destaques: ✅ Construído sobre o robusto modelo base Qwen3-VL ✅ Processa texto, imagens, capturas de tela, vídeos e entradas de modalidade mista ✅ Suporta mais de 30 idiomas ✅ Alcança desempenho de ponta em benchmarks de recuperação multimodal ✅ Código aberto e disponível no Hugging Face, GitHub e ModelScope ✅ Implantação de API na Alibaba Cloud em breve! 🎯 Arquitetura de recuperação em duas etapas: 📊 Modelo de Embedding – gera representações vetoriais semanticamente ricas em um espaço de embedding unificado 🎯 Modelo Reranker – calcula pontuações de relevância detalhadas para uma precisão de recuperação aprimorada 🔍 Principais cenários de aplicação: Recuperação de imagem-texto, busca de vídeo, RAG multimodal, resposta a perguntas visuais, agrupamento de conteúdo multimodal, busca visual multilíngue e mais! 🌟 Capacidades amigáveis para desenvolvedores: • Dimensões de embedding configuráveis • Personalização de instruções específicas para tarefas • Suporte à quantização de embedding para implantação eficiente e econômica a jusante Hugging Face: ModelScope: Github: Blog: Relatório Técnico:
Visão geral da arquitetura Qwen3-VL-Embedding e Qwen3-VL-Reranker.
Resultados da avaliação nos benchmarks MMEB-v2 e MMTEB
78