🚀 Představujeme Qwen3-VL-Embedding a Qwen3-VL-Reranker – posouváme hranice v multimodálním vyhledávání a cross-modal porozumění! ✨ Hlavní body: ✅ Postaveno na robustním základním modelu Qwen3-VL ✅ Zpracovává text, obrázky, screenshoty, videa a smíšené modality vstupy ✅ Podporuje 30+ jazyků ✅ Dosahuje špičkového výkonu na multimodálních benchmarkech vyhledávání ✅ Open source a dostupné na Hugging Face, GitHub a ModelScope ✅ Brzy nasazení API na Alibaba Cloud! 🎯 Dvoustupňová architektura vyhledávání: 📊 Model vnoření – generuje sémanticky bohaté vektorové reprezentace v jednotném prostoru vnoření 🎯 Reranker Model – počítá jemnozrnná skóre relevance pro zvýšenou přesnost vyhledávání 🔍 Klíčové scénáře aplikace: Vyhledávání obrázků a textu, vyhledávání videa, multimodální RAG, vizuální odpovídání na otázky, multimodální shlukování obsahu, vícejazyčné vizuální vyhledávání a další! 🌟 Možnosti přívětivé pro vývojáře: • Dimenze konfigurovatelného vnoření • Přizpůsobení instrukcí specifických pro úkol • Podpora kvantizace pro efektivní a nákladově efektivní následné nasazení Objímající obličej: ModelScope: Github: Blog: Technická zpráva:
Přehled architektury Qwen3-VL-Embedding a Qwen3-VL-Reranker.
Výsledky hodnocení benchmarků MMEB-v2 a MMTEB
120