BullshitBench v2 jest już dostępny! To jeden z nielicznych benchmarków, w których modele generalnie nie poprawiają się (z wyjątkiem Claude'a) i gdzie rozumowanie nie pomaga. Co nowego: 100 nowych pytań, podzielonych na dziedziny (programowanie (40 pytań), medycyna (15), prawo (15), finanse (15), fizyka (15)), przetestowano ponad 70 wariantów modeli. BullshitBench ma już 380 startów na GitHubie - wszystkie pytania, skrypty, odpowiedzi i oceny są tam, więc sprawdź to. TL;DR: - Wyniki powtórzone - najnowsze modele @AnthropicAI osiągają wyjątkowo dobre wyniki - @Alibaba_Qwen to kolejny bardzo mocny gracz - Modele OpenAI i Google nie radzą sobie dobrze i nie poprawiają się - Dziedziny nie pokazują dużych różnic - wskaźniki wykrywania BS są mniej więcej takie same we wszystkich dziedzinach - Rozumowanie, jeśli już, ma negatywny wpływ - Nowsze modele nie radzą sobie znacznie lepiej od starszych (z wyjątkiem Anthropic) Linki: - Eksplorator danych: - GitHub: Gorąco polecam eksplorator danych, gdzie możesz badać dane oraz pytania i przykładowe odpowiedzi.