المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 صدر! إنها واحدة من المعايير القليلة التي لا تتحسن فيها النماذج بشكل عام (باستثناء كلود) وحيث لا يساعد التفكير في المنطق.
ما الجديد: 100 سؤال جديد، حسب المجال (البرمجة (40 سؤال)، الطب (15)، القانون (15)، المالية (15)، الفيزياء (15))، 70+ نسخة من النماذج تم اختبارها. BullshitBench بالفعل عند 380 نقطة بداية على GitHub - جميع الأسئلة، والنصوص، والردود، والأحكام موجودة، فجرب التجربة.
ملخص؛ ملخص:
- النتائج مكررة - @AnthropicAI أحدث النماذج تحقق نتائج استثنائية
- @Alibaba_Qwen هو مؤدي قوي جدا
- نماذج OpenAI وGoogle ليست جيدة ولا تتحسن
- المجالات لا تظهر فرقا كبيرا - معدلات كشف BS متشابهة تقريبا عبر جميع النطاقات
- المنطق، إن وجد، له تأثير سلبي
- النماذج الحديثة لا تقدم أداء أفضل بكثير من النماذج القديمة (باستثناء Anthropic)
روابط:
- مستكشف البيانات:
- GitHub:
أنصح بشدة بمستكشف البيانات حيث يمكنك دراسة البيانات والأسئلة والأجوبة النموذجية.
الأفضل
المُتصدِّرة
التطبيقات المفضلة
