Sốc 🤯, khả năng mã hóa của mô hình Composer2 của Cursor lại vượt qua opus4.6? 🧶👇 📊 Kiểm tra chuẩn cốt lõi (từ chối tự mãn) • Terminal-Bench 2.0: 61.7% (cạnh tranh và vượt qua Claude Opus 4.6 với 58.0%) • SWE-bench Đa ngôn ngữ: 73.7% • CursorBench: 61.3% (so với thế hệ trước là 44.2%) Tôi thấy nhiều người phàn nàn rằng CursorBench là chỉ số "Trust me bro" Nhưng chính thức rất cứng rắn: Terminal-Bench sử dụng chuẩn của bên thứ ba là Laude Institute, khung Harbor chính thức đã chạy 5 vòng để lấy giá trị trung bình, dữ liệu rất vững chắc. Lại sắp phải ép tôi trả tiền rồi? 😂😂🫰🫰