متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

BullshitBench v2 صدر! إنها واحدة من المعايير القليلة التي لا تتحسن فيها النماذج بشكل عام (باستثناء كلود) وحيث لا يساعد التفكير في المنطق. ما الجديد: 100 سؤال جديد، حسب المجال (البرمجة (40 سؤال)، الطب (15)، القانون (15)، المالية (15)، الفيزياء (15))، 70+ نسخة من النماذج تم اختبارها. BullshitBench بالفعل عند 380 نقطة بداية على GitHub - جميع الأسئلة، والنصوص، والردود، والأحكام موجودة، فجرب التجربة. ملخص؛ ملخص: - النتائج مكررة - @AnthropicAI أحدث النماذج تحقق نتائج استثنائية - @Alibaba_Qwen هو مؤدي قوي جدا - نماذج OpenAI وGoogle ليست جيدة ولا تتحسن - المجالات لا تظهر فرقا كبيرا - معدلات كشف BS متشابهة تقريبا عبر جميع النطاقات - المنطق، إن وجد، له تأثير سلبي - النماذج الحديثة لا تقدم أداء أفضل بكثير من النماذج القديمة (باستثناء Anthropic) روابط: - مستكشف البيانات: - GitHub: أنصح بشدة بمستكشف البيانات حيث يمكنك دراسة البيانات والأسئلة والأجوبة النموذجية.

الأفضل

المُتصدِّرة

التطبيقات المفضلة