Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Prezentăm Qwen3-VL-Embedding și Qwen3-VL-Reranker – promovând stadiul tehnologiei în recuperarea multimodală și înțelegerea cross-modală!
✨ Momente importante:
✅ Construit pe modelul robust de fundație Qwen3-VL
✅ Procesează text, imagini, capturi de ecran, videoclipuri și intrări cu modalități mixte
✅ Suportă 30+ limbi
✅ Atinge performanțe de ultimă generație pe repere de recuperare multimodală
✅ Open source și disponibil pe Hugging Face, GitHub și ModelScope
✅ Implementarea API-ului pe Alibaba Cloud în curând!
🎯 Arhitectură de recuperare în două etape:
📊 Model de Embedding – generează reprezentări vectoriale bogate semantic într-un spațiu de embedding unificat
🎯 Modelul Reranker – calculează scoruri fine de relevanță pentru o acuratețe sporită a recuperării
🔍 Scenarii cheie de aplicare:
Recuperare imagine-text, căutare video, RAG multimodal, răspunsuri vizuale la întrebări, clusterizare multimodală a conținutului, căutare vizuală multilingvă și multe altele!
🌟 Capabilități prietenoase cu dezvoltatorii:
• Dimensiuni de încorporare configurabile
• Personalizarea instrucțiunilor specifice sarcinilor
• Integrarea suportului de cuantizare pentru o implementare eficientă și rentabilă în aval
Față de îmbrățișare:
ModelScope:
Github:
Blog:
Raport tehnic:

Prezentare generală a arhitecturii Qwen3-VL-Embedding și Qwen3-VL-Reranker.

Rezultatele evaluărilor pentru benchmark-urile MMEB-v2 și MMTEB

77
Limită superioară
Clasament
Favorite
