🚀 Memperkenalkan Qwen3-VL-Embedding dan Qwen3-VL-Reranker – memajukan canggih dalam pengambilan multimoda dan pemahaman lintas modal! ✨ Sorotan: ✅ Dibangun di atas model pondasi Qwen3-VL yang kuat ✅ Memproses teks, gambar, tangkapan layar, video, dan input modalitas campuran ✅ Mendukung 30+ bahasa ✅ Mencapai performa canggih pada tolok ukur pengambilan multimoda ✅ Sumber terbuka dan tersedia di Hugging Face, GitHub, dan ModelScope ✅ Penerapan API di Alibaba Cloud segera hadir! 🎯 Arsitektur pengambilan dua tahap: 📊 Embedding Model – menghasilkan representasi vektor yang kaya semantik dalam ruang penyematan terpadu 🎯 Model Reranker – menghitung skor relevansi terperinci untuk meningkatkan akurasi pengambilan 🔍 Skenario aplikasi utama: Pengambilan gambar-teks, pencarian video, RUG multimodal, jawaban pertanyaan visual, pengelompokan konten multimodal, pencarian visual multibahasa, dan banyak lagi! 🌟 Kemampuan ramah pengembang: • Dimensi penyematan yang dapat dikonfigurasi • Kustomisasi instruksi khusus tugas • Menyematkan dukungan kuantisasi untuk penerapan hilir yang efisien dan hemat biaya Wajah Memeluk: Ruang lingkup model: Github: Blog: Laporan Teknologi:
Ikhtisar arsitektur Qwen3-VL-Embedding dan Qwen3-VL-Reranker.
Hasil evaluasi pada tolok ukur MMEB-v2 dan MMTEB
133