BullshitBench v2 صدر! إنها واحدة من المعايير القليلة التي لا تتحسن فيها النماذج بشكل عام (باستثناء كلود) وحيث لا يساعد التفكير في المنطق. ما الجديد: 100 سؤال جديد، حسب المجال (البرمجة (40 سؤال)، الطب (15)، القانون (15)، المالية (15)، الفيزياء (15))، 70+ نسخة من النماذج تم اختبارها. BullshitBench بالفعل عند 380 نقطة بداية على GitHub - جميع الأسئلة، والنصوص، والردود، والأحكام موجودة، فجرب التجربة. ملخص؛ ملخص: - النتائج مكررة - @AnthropicAI أحدث النماذج تحقق نتائج استثنائية - @Alibaba_Qwen هو مؤدي قوي جدا - نماذج OpenAI وGoogle ليست جيدة ولا تتحسن - المجالات لا تظهر فرقا كبيرا - معدلات كشف BS متشابهة تقريبا عبر جميع النطاقات - المنطق، إن وجد، له تأثير سلبي - النماذج الحديثة لا تقدم أداء أفضل بكثير من النماذج القديمة (باستثناء Anthropic) روابط: - مستكشف البيانات: - GitHub: أنصح بشدة بمستكشف البيانات حيث يمكنك دراسة البيانات والأسئلة والأجوبة النموذجية.