BullshitBench v2 sudah keluar! Ini adalah salah satu dari sedikit tolok ukur di mana model umumnya tidak menjadi lebih baik (kecuali Claude) dan di mana penalaran tidak membantu. Apa yang baru: 100 pertanyaan baru, berdasarkan domain (pengkodean (40 Q), medis (15), hukum (15), keuangan (15), fisika (15)), 70+ varian model yang diuji. BullshitBench sudah ada di 380 start di GitHub - semua pertanyaan, skrip, tanggapan, dan penilaian ada di sana, jadi periksalah. TL; DR: - Hasil direplikasi - Model terbaru @AnthropicAI mendapat skor yang sangat baik - @Alibaba_Qwen adalah pemain lain yang sangat kuat - Model OpenAI dan Google tidak berjalan dengan baik dan tidak meningkat - Domain tidak menunjukkan banyak perbedaan - tingkat deteksi BS hampir sama di semua domain - Penalaran, jika ada, memiliki efek negatif - Model yang lebih baru tidak jauh lebih baik daripada yang lebih lama (kecuali Anthropic) Tautan: - Penjelajah data: - GitHub: Sangat merekomendasikan penjelajah data di mana Anda dapat mempelajari data dan pertanyaan & contoh jawaban.