Theo các tiêu chuẩn, Qwen3.5 4B tốt như GPT 4o. GPT 4o ra mắt khoảng 2 năm trước (tháng 5 năm 2024). Qwen 3.5 4B chạy dễ dàng trên các thiết bị di động hiện đại. Vì vậy, khoảng cách giữa trí tuệ tiên tiến trong một trung tâm dữ liệu và việc chạy một mô hình có chất lượng tương đương trên iPhone của bạn có thể là 2-3 năm. (Có lẽ gần 3 năm nếu giả định Qwen3.5 4B được tối ưu hóa hơn 4o) Tôi không mong đợi xu hướng tăng cường trí tuệ trên mỗi watt sẽ thay đổi. Vì vậy, trong 2-3 năm tới, có khả năng chúng ta sẽ chạy các mô hình chất lượng GPT 5.x trên một chiếc iPhone. Thật điên rồ.
@martinald Tôi chưa thực hiện phép tính (rất tò mò để xem nó). Nhưng tôi sẽ cá rằng bạn có thể làm cho độ dài ngữ cảnh >100k hoạt động trên một chiếc điện thoại với 10GB với việc định lượng bộ nhớ KV.
Bất kỳ ai nói với tôi rằng ngữ cảnh là vấn đề. Nó có giới hạn nhưng không phải là không thể vượt qua. Qwen 3.5 là một mô hình lai. Nó có 8 lớp chú ý toàn cầu (kích thước đầu=128, số đầu khóa/giá trị=4). Giả sử định lượng KV cache 8 bit (không mất chất lượng). Với 2GB, bạn có thể chứa ~65k độ dài ngữ cảnh. Khởi đầu tốt. Sẽ tốt hơn.
Bất kỳ ai nói với tôi rằng ngữ cảnh là vấn đề. Nó có giới hạn nhưng không phải là không thể vượt qua. Qwen 3.5 là một mô hình lai. Nó có 8 lớp chú ý toàn cầu (kích thước đầu=256, số đầu khóa/giá trị=4). Giả sử định lượng KV cache 8 bit (không mất chất lượng). Với 2GB, bạn có thể chứa ~65k độ dài ngữ cảnh. Khởi đầu tốt. Sẽ tốt hơn.
@simonw (Tôi đã đối chiếu một số kết quả và chúng đúng như tôi có thể thấy)
Có rất nhiều bình luận cho rằng mô hình này đã bị benchmaxxed / rò rỉ đánh giá / không tốt bằng 4o. Sẽ thật tuyệt nếu ai đó thực hiện một phân tích nghiêm ngặt sử dụng một số tiêu chuẩn ẩn và đa dạng. Mô hình tiên tiến nào mà Qwen 3.5 4B có thể so sánh? Dự đoán hợp lý cho thời gian từ tiên tiến đến biên giới là bao lâu? Cho đến nay, tôi không thấy bất kỳ bằng chứng nào cho thấy nó hơn 3 năm, và rất có thể nằm trong khoảng 2-4 năm.
263