Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 jest już dostępny! To jeden z nielicznych benchmarków, w których modele generalnie nie poprawiają się (z wyjątkiem Claude'a) i gdzie rozumowanie nie pomaga.
Co nowego: 100 nowych pytań, podzielonych na dziedziny (programowanie (40 pytań), medycyna (15), prawo (15), finanse (15), fizyka (15)), przetestowano ponad 70 wariantów modeli. BullshitBench ma już 380 startów na GitHubie - wszystkie pytania, skrypty, odpowiedzi i oceny są tam, więc sprawdź to.
TL;DR:
- Wyniki powtórzone - najnowsze modele @AnthropicAI osiągają wyjątkowo dobre wyniki
- @Alibaba_Qwen to kolejny bardzo mocny gracz
- Modele OpenAI i Google nie radzą sobie dobrze i nie poprawiają się
- Dziedziny nie pokazują dużych różnic - wskaźniki wykrywania BS są mniej więcej takie same we wszystkich dziedzinach
- Rozumowanie, jeśli już, ma negatywny wpływ
- Nowsze modele nie radzą sobie znacznie lepiej od starszych (z wyjątkiem Anthropic)
Linki:
- Eksplorator danych:
- GitHub:
Gorąco polecam eksplorator danych, gdzie możesz badać dane oraz pytania i przykładowe odpowiedzi.
Najlepsze
Ranking
Ulubione
