Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BullshitBench v2 è uscito! È uno dei pochi benchmark in cui i modelli generalmente non stanno migliorando (eccetto Claude) e dove il ragionamento non aiuta.
Cosa c'è di nuovo: 100 nuove domande, per dominio (programmazione (40 Q), medico (15), legale (15), finanza (15), fisica (15)), oltre 70 varianti di modelli testati. BullshitBench ha già raggiunto 380 avvii su GitHub - tutte le domande, script, risposte e giudizi sono lì, quindi dai un'occhiata.
TL;DR:
- Risultati replicati - i modelli più recenti di @AnthropicAI stanno ottenendo punteggi eccezionali
- @Alibaba_Qwen è un altro performer molto forte
- I modelli di OpenAI e Google non stanno andando bene e non stanno migliorando
- I domini non mostrano molte differenze - i tassi di rilevamento di BS sono più o meno gli stessi in tutti i domini
- Il ragionamento, se mai, ha un effetto negativo
- I modelli più recenti non fanno molto meglio di quelli più vecchi (eccetto Anthropic)
Link:
- Esploratore dati:
- GitHub:
Consiglio vivamente l'esploratore dati dove puoi studiare i dati e le domande & risposte campione.
Principali
Ranking
Preferiti
