Cập nhật bảng xếp hạng GDPval-AA: GLM-4.7 là người dẫn đầu về trọng số mở mới với 1224 ELO, và MiniMax M2.1 có những cải tiến đáng kể so với M2 GDPval-AA so sánh đầu ra của các mô hình trên các nhiệm vụ công việc kiến thức thực tế như chuẩn bị thuyết trình, phân tích, và nhiều hơn nữa bằng cách sử dụng một môi trường terminal chuyên dụng và truy cập web. Các đầu ra công việc sau đó được so sánh với nhau và đánh giá bằng một quy trình tự động để tạo ra các trận đấu và điểm ELO. ➤ GLM-4.7 từ @Zai_org đạt được ELO 1224, đứng ngay sau GPT-5.1 (cao) và tăng khoảng 170 điểm so với GLM-4.6. Điều này có nghĩa là chúng tôi mong đợi đầu ra từ GLM-4.7 sẽ đánh bại GLM-4.6 73% thời gian khi so sánh trực tiếp. ➤ @MiniMax__AI cũng đã cho thấy những cải tiến trên GDPval-AA với việc phát hành M2.1, tăng ELO thêm +56 điểm so với mô hình M2 trước đó nhưng vẫn nằm giữa GLM-4.6 và GPT-5.1 Codex (cao).
Bảng xếp hạng GDPval-AA: So sánh Phân tích Nhân tạo của các nhà cung cấp API không máy chủ GLM-4.7: So sánh Phân tích Nhân tạo của các nhà cung cấp API không máy chủ MiniMax M2.1:
2,89K