🚀 Vi introducerar Qwen3-VL-Embedding och Qwen3-VL-Reranker – som för utvecklingen av tekniken inom multimodal retrieval och cross-modal förståelse! ✨ Höjdpunkter: ✅ Byggt på den robusta Qwen3-VL grundmodellen ✅ Bearbetar text, bilder, skärmdumpar, videor och indata med blandad modalitet ✅ Stöder 30+ språk ✅ Uppnår toppmodern prestanda på multimodala återvinningsbenchmarks ✅ Öppen källkod och tillgänglig på Hugging Face, GitHub och ModelScope ✅ API-utrullning på Alibaba Cloud kommer snart! 🎯 Tvåstegs hämtningsarkitektur: 📊 Embeddingmodell – genererar semantiskt rika vektorrepresentationer i ett enhetligt embeddingsutrymme 🎯 Reranker-modellen – beräknar finjusterade relevanspoäng för ökad träffsäkerhet 🔍 Viktiga tillämpningsscenarier: Bild-text-återvinning, videosökning, multimodal RAG, visuell frågebesvarning, multimodal innehållsklustring, flerspråkig visuell sökning och mer! 🌟 Utvecklarvänliga funktioner: • Konfigurerbara inbäddningsmått • Uppgiftsspecifik instruktionsanpassning • Integrera kvantiseringsstöd för effektiv och kostnadseffektiv nedströmsimplementering Kramande ansikte: ModelScope: Github: Blogg: Teknisk rapport:
Översikt över Qwen3-VL-Embedding och Qwen3-VL-Reranker-arkitekturen.
Utvärderingsresultat av MMEB-v2 och MMTEB-riktmärken
138