BullshitBench v2 är ute! Det är en av få riktmärken där modeller generellt inte blir bättre (förutom Claude) och där resonemanget inte hjälper. Vad som är nytt: 100 nya frågor, per domän (kodning (40 frågor), medicin (15), juridik (15), finans (15), fysik (15)), 70+ modellvarianter testade. BullshitBench är redan på 380 starter på GitHub – alla frågor, skript, svar och bedömningar finns där, så kolla in det. TL; DR: - Resultat replikerade - @AnthropicAI senaste modellerna presterar exceptionellt bra - @Alibaba_Qwen är en annan mycket stark artist - OpenAI och Googles modeller går dåligt och förbättras inte - Domäner visar inte mycket skillnad – frekvensen för BS-detektering är ungefär densamma över alla domäner - Resonemang har, om något, negativ effekt - Nyare modeller klarar sig inte mycket bättre än äldre (förutom antropiska) Länkar: - Datautforskare: - GitHub: Rekommenderar starkt datautforskaren där du kan studera datan och frågorna samt exempelsvar.