Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 er ute! Det er en av de få benchmarkene hvor modellene generelt ikke blir bedre (bortsett fra Claude) og hvor resonnement ikke hjelper.
Hva er nytt: 100 nye spørsmål, per domene (koding (40 spørsmål), medisinsk (15), juridisk (15), finans (15), fysikk (15)), 70+ modellvarianter testet. BullshitBench er allerede på 380 starter på GitHub – alle spørsmål, skript, svar og vurderinger er der, så sjekk det ut.
TL; DR:
- Resultater replikert - @AnthropicAI nyeste modellene scorer eksepsjonelt godt
- @Alibaba_Qwen er en annen svært sterk utøver
- OpenAI- og Google-modellene gjør det dårlig og blir ikke bedre
- Domener viser ikke stor forskjell – frekvensen for BS-deteksjon er omtrent den samme på tvers av alle domener
- Resonnement, om noe, har negativ effekt
- Nyere modeller gjør det ikke så mye bedre enn eldre (bortsett fra Anthropic)
Lenker:
- Datautforsker:
- GitHub:
Anbefaler på det sterkeste datautforskeren hvor du kan studere dataene og spørsmålene og eksempelsvarene.
Topp
Rangering
Favoritter
