BullshitBench v2 è uscito! È uno dei pochi benchmark in cui i modelli generalmente non stanno migliorando (eccetto Claude) e dove il ragionamento non aiuta. Cosa c'è di nuovo: 100 nuove domande, per dominio (programmazione (40 Q), medico (15), legale (15), finanza (15), fisica (15)), oltre 70 varianti di modelli testati. BullshitBench ha già raggiunto 380 avvii su GitHub - tutte le domande, script, risposte e giudizi sono lì, quindi dai un'occhiata. TL;DR: - Risultati replicati - i modelli più recenti di @AnthropicAI stanno ottenendo punteggi eccezionali - @Alibaba_Qwen è un altro performer molto forte - I modelli di OpenAI e Google non stanno andando bene e non stanno migliorando - I domini non mostrano molte differenze - i tassi di rilevamento di BS sono più o meno gli stessi in tutti i domini - Il ragionamento, se mai, ha un effetto negativo - I modelli più recenti non fanno molto meglio di quelli più vecchi (eccetto Anthropic) Link: - Esploratore dati: - GitHub: Consiglio vivamente l'esploratore dati dove puoi studiare i dati e le domande & risposte campione.