DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

BullshitBench v2 är ute! Det är en av få riktmärken där modeller generellt inte blir bättre (förutom Claude) och där resonemanget inte hjälper. Vad som är nytt: 100 nya frågor, per domän (kodning (40 frågor), medicin (15), juridik (15), finans (15), fysik (15)), 70+ modellvarianter testade. BullshitBench är redan på 380 starter på GitHub – alla frågor, skript, svar och bedömningar finns där, så kolla in det. TL; DR: - Resultat replikerade - @AnthropicAI senaste modellerna presterar exceptionellt bra - @Alibaba_Qwen är en annan mycket stark artist - OpenAI och Googles modeller går dåligt och förbättras inte - Domäner visar inte mycket skillnad – frekvensen för BS-detektering är ungefär densamma över alla domäner - Resonemang har, om något, negativ effekt - Nyare modeller klarar sig inte mycket bättre än äldre (förutom antropiska) Länkar: - Datautforskare: - GitHub: Rekommenderar starkt datautforskaren där du kan studera datan och frågorna samt exempelsvar.

Topp

Rankning

Favoriter