BullshitBench v2 está disponível! É um dos poucos benchmarks onde os modelos geralmente não estão a melhorar (exceto Claude) e onde o raciocínio não está a ajudar. O que há de novo: 100 novas perguntas, por domínio (programação (40 Q's), medicina (15), legal (15), finanças (15), física (15)), 70+ variantes de modelos testadas. BullshitBench já tem 380 inícios no GitHub - todas as perguntas, scripts, respostas e julgamentos estão lá, então confira. TL;DR: - Resultados replicados - os últimos modelos da @AnthropicAI estão a pontuar excepcionalmente bem - @Alibaba_Qwen é outro desempenho muito forte - Os modelos da OpenAI e Google não estão a ir bem e não estão a melhorar - Os domínios não mostram muita diferença - as taxas de deteção de BS são aproximadamente as mesmas em todos os domínios - O raciocínio, se é que tem algum efeito, tem um efeito negativo - Modelos mais novos não se saem muito melhor do que os mais antigos (exceto Anthropic) Links: - Explorador de dados: - GitHub: Recomendo fortemente o explorador de dados onde você pode estudar os dados e as perguntas & respostas de exemplo.