يظهر فلاش Gemini 3 حاليا أعلى معدل نجاح ل OpenClaw على PinchBench، بنسبة 95.1٪. PinchBench هو معيار مفتوح يقيم كيف تؤدي النماذج مع OpenClaw في السيناريوهات الواقعية. يركز على الاستخدام العملي بدلا من اختبارات القدرات المعزولة. تشمل المهام كتابة الكود، إدارة الملفات، الجدولة، والبحث. ينظر موقع PinchBench إلى أمور مثل: - استخدام الأدوات. هل يمكن للنموذج استدعاء الأدوات المناسبة مع المعايير المناسبة؟ - التفكير متعدد الخطوات. هل يمكن أن يكون هناك إجراءات متسلسلة لإنجاز المهام المعقدة؟ - فوضى حقيقية. هل يمكنه التعامل مع التعليمات الغامضة والمعلومات غير المكتملة؟ - النتائج العملية. هل أنشأت فعلا الملف، أو أرسلت البريد الإلكتروني، أم جدولة الاجتماع؟ لوحة المتصدرين الكاملة أدناه. 1/2