Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Alibaba đã phát hành 4 mô hình Qwen3.5 mới từ 0.8B đến 9B. Mô hình 9B (Lập luận, 32 trên Chỉ số Trí tuệ) là mô hình thông minh nhất dưới 10B tham số, và mô hình 4B (Lập luận, 27) là mô hình thông minh nhất dưới 5B, nhưng cả hai đều sử dụng hơn 200M token đầu ra để chạy Chỉ số Trí tuệ @Alibaba_Qwen đã mở rộng gia đình Qwen3.5 với bốn mô hình dày đặc nhỏ hơn: 9B (Lập luận, 32 trên Chỉ số Trí tuệ), 4B (Lập luận, 27), 2B (Lập luận, 16) và 0.8B (Lập luận, 9). Những mô hình này bổ sung cho các mô hình lớn hơn 397B, 27B, 122B A10B và 35B A3B được phát hành vào đầu tháng này. Tất cả các mô hình đều có giấy phép Apache 2.0, hỗ trợ 262K ngữ cảnh, bao gồm hỗ trợ thị giác bản địa, và sử dụng cùng một phương pháp tư duy/không tư duy kết hợp như phần còn lại của gia đình Qwen3.5 Kết quả đánh giá chính cho các biến thể lập luận: ➤ Mô hình 9B và 4B là những mô hình thông minh nhất trong các lớp kích thước tương ứng của chúng, vượt trội hơn tất cả các mô hình khác dưới 10B tham số. Qwen3.5 9B (32) ghi điểm gấp đôi so với các mô hình gần nhất dưới 10B: Falcon-H1R-7B (16) và NVIDIA Nemotron Nano 9B V2 (Lập luận, 15). Qwen3.5 4B (27) ghi điểm cao hơn tất cả những mô hình này mặc dù có khoảng một nửa tham số. Tất cả bốn mô hình nhỏ Qwen3.5 đều nằm trên biên Pareto của biểu đồ Trí tuệ so với Tổng tham số ➤ Thế hệ Qwen3.5 đại diện cho một sự nâng cấp trí tuệ đáng kể so với Qwen3 trên tất cả các kích thước mô hình dưới 10B, với những cải tiến lớn hơn ở các tổng số tham số cao hơn. So sánh các biến thể lập luận: Qwen3.5 9B (32) cao hơn 15 điểm so với Qwen3 VL 8B (17), 4B (27) cao hơn 9 điểm so với Qwen3 4B 2507 (18), 2B (16) cao hơn 3 điểm so với Qwen3 1.7B (ước tính 13), và 0.8B (9) cao hơn 2.5 điểm so với Qwen3 0.6B (6.5). ➤ Tất cả bốn mô hình sử dụng 230-390M token đầu ra để chạy Chỉ số Trí tuệ, nhiều hơn đáng kể so với cả hai mô hình anh em lớn hơn Qwen3.5 và các mô hình tiền nhiệm Qwen3. Qwen3.5 2B sử dụng khoảng 390M token đầu ra, 4B sử dụng khoảng 240M, 0.8B sử dụng khoảng 230M, và 9B sử dụng khoảng 260M. Để so sánh, mô hình Qwen3.5 lớn hơn 27B sử dụng 98M và mô hình flagship 397B sử dụng 86M. Những số lượng token này cũng vượt quá hầu hết các mô hình tiên tiến: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M), và GLM-5 Lập luận (109M) ➤ AA-Omniscience là một điểm yếu tương đối, với tỷ lệ ảo giác từ 80-82% cho 4B và 9B. Qwen3.5 4B ghi điểm -57 trên AA-Omniscience với tỷ lệ ảo giác 80% và độ chính xác 12.8%. Qwen3.5 9B ghi điểm -56 với 82% ảo giác và 14.7% độ chính xác. Những điểm số này chỉ tốt hơn một chút so với các mô hình tiền nhiệm Qwen3 (Qwen3 4B 2507: -61, 84% ảo giác, 12.7% độ chính xác), với sự cải thiện chủ yếu do tỷ lệ ảo giác thấp hơn thay vì độ chính xác cao hơn. ➤ Các mô hình Qwen3.5 dưới 10B kết hợp trí tuệ cao với thị giác bản địa ở quy mô trước đây chưa từng có. Trên MMMU-Pro (lập luận đa phương thức), Qwen3.5 9B ghi điểm 69.2% và 4B ghi điểm 65.4%, vượt qua Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%), và Ministral 3 8B (46.0%). Qwen3.5 0.8B ghi điểm 25.8%, điều này rất đáng chú ý cho một mô hình dưới 1B Thông tin khác: ➤ Cửa sổ ngữ cảnh: 262K token ➤ Giấy phép: Apache 2.0 ➤ Định lượng: Trọng số bản địa là BF16. Alibaba chưa phát hành các định lượng GPTQ-Int4 từ bên thứ nhất cho các mô hình nhỏ này, mặc dù họ đã phát hành cho các mô hình lớn hơn trong gia đình Qwen3.5 được phát hành trước đó (27B, 35B-A3B, 122B-A10B, 397B-A17B). Trong định lượng 4-bit, cả bốn mô hình đều có thể truy cập trên phần cứng tiêu dùng ➤ Tính khả dụng: Tại thời điểm xuất bản, không có API không máy chủ từ bên thứ nhất hoặc bên thứ ba nào lưu trữ các mô hình này.

Thế hệ Qwen3.5 là một bước tiến trong trí thông minh của mô hình nhỏ so với Qwen3. Mô hình 9B tăng 15 điểm so với Qwen3 VL 8B (17 đến 32), mô hình 4B tăng 9 điểm so với Qwen3 4B 2507 (18 đến 27), mô hình 2B tăng 3 điểm so với Qwen3 1.7B (13 đến 16), và mô hình 0.8B tăng 2.5 điểm so với Qwen3 0.6B (6.5 đến 9).

Các lợi ích về trí tuệ đến với chi phí sử dụng token cao hơn so với các đối thủ. Tất cả bốn mô hình Qwen3.5 dưới 10B đều sử dụng hơn 230 triệu token đầu ra để chạy Chỉ số Trí tuệ - điều này cao hơn đáng kể so với hầu hết các mô hình tiên tiến cũng như các phiên bản trước của Qwen3.

Các mô hình Qwen3.5 9B và 4B là những mô hình đa phương thức thông minh nhất dưới 15B tham số. Trên MMMU-Pro, Qwen3.5 9B (69%) và 4B (65%) dẫn đầu tất cả các mô hình dưới 15B.

Phân tích kết quả cá nhân cho cả 4 mô hình

So sánh gia đình Qwen3.5 với các mô hình hàng đầu khác tại:

8,58K

Hàng đầu

Thứ hạng

Yêu thích