Rõ ràng Opus 4.5 đã thuộc lòng MATH của hendrycks (bao gồm cả bộ kiểm tra) và tất cả các AIMEs trước đó cũng vậy. Mô hình đạt khoảng 80-90% đúng khi đưa ra số ngay lập tức mà không cần lý do. Thật phiền phức khi thử nghiệm trên các bộ dữ liệu toán học...