هل تفاجأت 🤯، قدرة المؤشر على الترميز في نموذج Composer2 تجاوزت فعلا opus4.6؟ 🧶👇 📊 المعايير الأساسية (رفض أن تكون راضيا عن نفسك) • المقعد النهائي 2.0: 61.7٪ (متصلبة وتفوق على كلود أوبوس بنسبة 4.6٪ بنسبة 58.0٪) • SWE-bench متعدد اللغات: 73.7٪ • CursorBench: 61.3٪ (مقابل 44.2٪ في الجيل السابق) أرى الكثير من الناس يشتكون من أن CursorBench هو مؤشر "ثق بي يا أخي" لكن المسؤول صارم جدا: Terminal-Bench يستخدم معايير معهد Laude الطرف الثالث، وإطار Harbor الرسمي أجرى 5 جولات لأخذ المتوسطات، والبيانات قوية جدا. هل ستجبرني على الدفع مرة أخرى؟ 😂😂🫰🫰