🚀 Giới thiệu Qwen3-VL-Embedding và Qwen3-VL-Reranker – nâng cao công nghệ trong việc truy xuất đa phương thức và hiểu biết giữa các phương thức! ✨ Điểm nổi bật: ✅ Dựa trên mô hình nền tảng Qwen3-VL mạnh mẽ ✅ Xử lý văn bản, hình ảnh, ảnh chụp màn hình, video và đầu vào đa phương thức hỗn hợp ✅ Hỗ trợ hơn 30 ngôn ngữ ✅ Đạt hiệu suất hàng đầu trong các tiêu chuẩn truy xuất đa phương thức ✅ Mã nguồn mở và có sẵn trên Hugging Face, GitHub và ModelScope ✅ Triển khai API trên Alibaba Cloud sắp ra mắt! 🎯 Kiến trúc truy xuất hai giai đoạn: 📊 Mô hình Nhúng – tạo ra các đại diện vector phong phú về ngữ nghĩa trong một không gian nhúng thống nhất 🎯 Mô hình Reranker – tính toán điểm liên quan chi tiết để nâng cao độ chính xác trong truy xuất 🔍 Các kịch bản ứng dụng chính: Truy xuất hình ảnh-văn bản, tìm kiếm video, RAG đa phương thức, trả lời câu hỏi hình ảnh, phân cụm nội dung đa phương thức, tìm kiếm hình ảnh đa ngôn ngữ, và nhiều hơn nữa! 🌟 Các khả năng thân thiện với nhà phát triển: • Kích thước nhúng có thể cấu hình • Tùy chỉnh hướng dẫn theo nhiệm vụ • Hỗ trợ định lượng nhúng cho việc triển khai hiệu quả và tiết kiệm chi phí Hugging Face: ModelScope: Github: Blog: Báo cáo Kỹ thuật:
Tổng quan về kiến trúc Qwen3-VL-Embedding và Qwen3-VL-Reranker.
Kết quả đánh giá trên các chuẩn MMEB-v2 và MMTEB
137