Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 está disponível! É um dos poucos benchmarks onde os modelos geralmente não estão a melhorar (exceto Claude) e onde o raciocínio não está a ajudar.
O que há de novo: 100 novas perguntas, por domínio (programação (40 Q's), medicina (15), legal (15), finanças (15), física (15)), 70+ variantes de modelos testadas. BullshitBench já tem 380 inícios no GitHub - todas as perguntas, scripts, respostas e julgamentos estão lá, então confira.
TL;DR:
- Resultados replicados - os últimos modelos da @AnthropicAI estão a pontuar excepcionalmente bem
- @Alibaba_Qwen é outro desempenho muito forte
- Os modelos da OpenAI e Google não estão a ir bem e não estão a melhorar
- Os domínios não mostram muita diferença - as taxas de deteção de BS são aproximadamente as mesmas em todos os domínios
- O raciocínio, se é que tem algum efeito, tem um efeito negativo
- Modelos mais novos não se saem muito melhor do que os mais antigos (exceto Anthropic)
Links:
- Explorador de dados:
- GitHub:
Recomendo fortemente o explorador de dados onde você pode estudar os dados e as perguntas & respostas de exemplo.
Top
Classificação
Favoritos
