BullshitBench v2 çıktı! Bu, modellerin genellikle daha iyi olmadığı (Claude hariç) ve mantık yürütmesinin yardımcı olmadığı nadir kıstalardan biri. Yenilikler: 100 yeni soru, alanlara göre (kodlama (40 soru), tıbbi (15), hukuk (15), finans (15), fizik (15)), 70+ model varyantı test edildi. BullshitBench zaten GitHub'da 380 başlangıçta - tüm sorular, scriptler, yanıtlar ve yargılar orada, o yüzden bir göz atın. Özet; DR: - Sonuçlar tekrarlandı - @AnthropicAI en yeni modeller olağanüstü iyi puan alıyor - @Alibaba_Qwen bir başka çok güçlü performans sergileyen - OpenAI ve Google modelleri iyi gitmiyor ve gelişme göstermiyor - Alan oranları çok fark göstermez - BS algılama oranları tüm alanlarda yaklaşık olarak aynıdır - Akıl yürütme, eğer bir şey varsa, olumsuz etkisi vardır - Yeni modeller eskilerden çok daha iyi performans göstermiyor (Anthropic hariç) Bağlantılar: - Veri tarayıcı: - GitHub: Veri gezgincisini, soruları ve örnek cevapları inceleyebileceğiniz veri gezgini şiddetle tavsiye ederim.