Cải thiện rõ rệt! Phiên bản chính thức Qwen3-Max so với phiên bản Preview thực tế! Đã 3 tháng kể từ khi phát hành phiên bản Qwen3-Max-ThinkingPreview, cuối cùng phiên bản chính thức cũng đã ra mắt! Lần này cải thiện lớn đến mức nào? Để tôi đưa ra kết quả thử nghiệm ngay! Kiểm tra khả năng lập trình: Kiểm tra chuỗi pháo nổ có sự cải thiện vượt bậc, trước đây phiên bản Preview hoàn toàn không thể chuỗi, bây giờ không chỉ có thể chuỗi mà hiệu quả còn khá tốt; Kiểm tra mô hình chai hình nón với kem đánh răng có sự cải thiện rõ rệt, thậm chí có hoạt ảnh chất lỏng rơi xuống, nhưng hoạt ảnh hạt vẫn còn một số vấn đề; Mô hình bộ máy tourbillon từ không thể hoàn thành đến mô hình thành công; Đã sửa lỗi đàn hồi và phát hiện va chạm của hạt khi đổ nước từ cốc Python. Lần này đã thêm kiểm tra thẩm mỹ: Sử dụng mô tả bằng văn bản để nó tái hiện tác phẩm nghệ thuật hiện đại p5.js, hiệu quả cũng khá, nhưng khả năng hiểu không gian vẫn còn yếu, đường ngang của cửa sổ nhỏ bị lệch. Kiểm tra khả năng của Agent: Trong khoảng 60K ngữ cảnh, hiệu suất xuất sắc, ước tính có thể đạt 500 điểm ở mức SOTA, nhưng khi vượt quá 60K, hiệu suất giảm mạnh, sẽ xuất hiện vấn đề vòng lặp nhiệm vụ hoặc quên công cụ. Khả năng hồi phục gần 70%, nhưng xuất hiện hiện tượng kỳ lạ - ngữ cảnh càng ngắn thì khả năng hồi phục càng kém, hiện tại vẫn chưa rõ vấn đề gì, tôi đã phản hồi cho chính thức. Tóm tắt: Phiên bản chính thức cải thiện rõ rệt so với phiên bản Preview, cả lập trình và thẩm mỹ đều có tiến bộ, nhưng khả năng hiểu không gian, khả năng của Agent và hồi phục ngữ cảnh dài vẫn cần được cải thiện. Ngoài ra, bài kiểm tra này là phiên bản thinking bình thường, trong khi chế độ TTS có điểm số cao hiện vẫn chưa được ra mắt! Mong chờ một đợt nữa!