Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 est sorti ! C'est l'un des rares benchmarks où les modèles ne s'améliorent généralement pas (sauf Claude) et où le raisonnement n'aide pas.
Quoi de neuf : 100 nouvelles questions, par domaine (programmation (40 Q), médical (15), juridique (15), finance (15), physique (15)), plus de 70 variantes de modèles testées. BullshitBench a déjà atteint 380 démarrages sur GitHub - toutes les questions, scripts, réponses et jugements y sont, alors jetez-y un œil.
TL;DR :
- Résultats répliqués - les derniers modèles de @AnthropicAI obtiennent des scores exceptionnellement bons
- @Alibaba_Qwen est un autre très bon performer
- Les modèles d'OpenAI et de Google ne s'en sortent pas bien et ne s'améliorent pas
- Les domaines ne montrent pas beaucoup de différence - les taux de détection de BS sont à peu près les mêmes dans tous les domaines
- Le raisonnement, si tant est qu'il ait un effet, a un effet négatif
- Les modèles plus récents ne font pas beaucoup mieux que les anciens (sauf Anthropic)
Liens :
- Explorateur de données :
- GitHub :
Je recommande vivement l'explorateur de données où vous pouvez étudier les données et les questions & exemples de réponses.
Meilleurs
Classement
Favoris
