🚀 Prezentăm Qwen3-VL-Embedding și Qwen3-VL-Reranker – promovând stadiul tehnologiei în recuperarea multimodală și înțelegerea cross-modală! ✨ Momente importante: ✅ Construit pe modelul robust de fundație Qwen3-VL ✅ Procesează text, imagini, capturi de ecran, videoclipuri și intrări cu modalități mixte ✅ Suportă 30+ limbi ✅ Atinge performanțe de ultimă generație pe repere de recuperare multimodală ✅ Open source și disponibil pe Hugging Face, GitHub și ModelScope ✅ Implementarea API-ului pe Alibaba Cloud în curând! 🎯 Arhitectură de recuperare în două etape: 📊 Model de Embedding – generează reprezentări vectoriale bogate semantic într-un spațiu de embedding unificat 🎯 Modelul Reranker – calculează scoruri fine de relevanță pentru o acuratețe sporită a recuperării 🔍 Scenarii cheie de aplicare: Recuperare imagine-text, căutare video, RAG multimodal, răspunsuri vizuale la întrebări, clusterizare multimodală a conținutului, căutare vizuală multilingvă și multe altele! 🌟 Capabilități prietenoase cu dezvoltatorii: • Dimensiuni de încorporare configurabile • Personalizarea instrucțiunilor specifice sarcinilor • Integrarea suportului de cuantizare pentru o implementare eficientă și rentabilă în aval Față de îmbrățișare: ModelScope: Github: Blog: Raport tehnic:
Prezentare generală a arhitecturii Qwen3-VL-Embedding și Qwen3-VL-Reranker.
Rezultatele evaluărilor pentru benchmark-urile MMEB-v2 și MMTEB
77