🚀 Vi introduserer Qwen3-VL-Embedding og Qwen3-VL-Reranker – som fremmer det nyeste innen multimodal gjenfinning og tverrmodal forståelse! ✨ Høydepunkter: ✅ Bygget på den robuste Qwen3-VL grunnlagsmodellen ✅ Behandler tekst, bilder, skjermbilder, videoer og blandede modalitetsinput ✅ Støtter 30+ språk ✅ Oppnår topp moderne ytelse på multimodale gjenfinningsbenchmarks ✅ Åpen kildekode og tilgjengelig på Hugging Face, GitHub og ModelScope ✅ API-utrulling på Alibaba Cloud kommer snart! 🎯 Totrinns hentearkitektur: 📊 Embedding-modell – genererer semantisk rike vektorrepresentasjoner i et samlet embedding-rom 🎯 Reranker-modellen – beregner finkornede relevansscorer for økt nøyaktighet i gjenfinning 🔍 Viktige bruksscenarier: Bilde-tekst-gjenfinning, videosøk, multimodal RAG, visuell svarløsning, multimodal innholdsklynge, flerspråklig visuell søk og mer! 🌟 Utviklervennlige muligheter: • Konfigurerbare innleiringsdimensjoner • Oppgavespesifikk instruksjonstilpasning • Integrere kvantiseringsstøtte for effektiv og kostnadseffektiv nedstrøms utrulling Klemmeansikt: ModelScope: Github: Blogg: Teknisk rapport:
Oversikt over Qwen3-VL-Embedding og Qwen3-VL-Reranker-arkitekturen.
Evalueringsresultater av MMEB-v2 og MMTEB benchmarks
78