Claude Opus 4.5 đã ra mắt hôm nay. Nó là công nghệ tiên tiến nhất về lập trình, tác nhân và sử dụng máy tính, và tốt hơn đáng kể trong các nhiệm vụ hàng ngày như tạo bảng tính và slide. Dưới đây là những gì chúng tôi đang thấy:
Phản hồi nhất quán từ các tester nội bộ là nó chỉ đơn giản là "hiểu được." Nó xử lý sự mơ hồ, lý luận về các sự đánh đổi mà không cần phải hướng dẫn. Những nhiệm vụ mà gần như không thể thực hiện được với Sonnet 4.5 giờ đây đã nằm trong tầm tay.
Ví dụ, chúng tôi cho các ứng viên kỹ sư hiệu suất một bài kiểm tra về nhà nổi tiếng khó khăn. Trong thời gian giới hạn 2 giờ, Opus 4.5 đã đạt điểm cao hơn bất kỳ ứng viên con người nào trước đây.
Nó cũng hiệu quả hơn rất nhiều. Trên SWE-bench Được xác minh với nỗ lực trung bình, Opus 4.5 vượt trội hơn Sonnet 4.5 trong khi sử dụng ít hơn 76% token đầu ra. Tham số nỗ lực mới cho phép bạn trao đổi trí thông minh để lấy chi phí/độ trễ với một núm điều chỉnh duy nhất.
295,36K