Tôi đã thử nghiệm Opus 4.5 với GPT-5.1-Codex-Max trong các tác vụ backend trong 24 giờ qua, và thật lòng mà nói, tôi không thể quyết định ai là người chiến thắng rõ ràng. Thường thì khi so sánh các mô hình, người chiến thắng sẽ rất rõ ràng ngay lập tức. Lần này thì không. Việc thử nghiệm vẫn tiếp tục.