Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 je venku! Je to jeden z mála benchmarků, kde se modely obecně nezlepšují (kromě Clauda) a kde rozumování nepomáhá.
Co je nového: 100 nových otázek podle oboru (programování (40 otázek), medicína (15), právní (15), finance (15), fyzika (15)), 70+ testovaných variant modelů. BullshitBench už má na GitHubu 380 startů – všechny otázky, skripty, odpovědi a soudy tam jsou, tak se na to podívejte.
Stručně; DR:
- Výsledky replikované - @AnthropicAI nejnovější modely dosahují výjimečných výsledků
- @Alibaba_Qwen je další velmi silný výkon
- Modely OpenAI a Google se nedaří a nezlepšují se
- Domény nevykazují velké rozdíly – míra detekce BS je přibližně stejná napříč všemi doménami
- Uvažování má pokud vůbec něco negativního
- Novější modely nejsou o moc lepší než starší (kromě Anthropic)
Odkazy:
- Průzkumník dat:
- GitHub:
Vřele doporučuji Data Explorer, kde si můžete prostudovat data, otázky a ukázkové odpovědi.
Top
Hodnocení
Oblíbené
