Acest rezultat BullshitBench explică în mare măsură intuiția larg răspândită că Claude este cel mai bun vehicul de zi cu zi, în ciuda benchmark-urilor uluitoare ale Google și OAI. Compară BullshitBench cu benchmark-urile de rezolvare a problemelor. Toate acestea din urmă presupun soluții corecte. Dar în viața reală, problemele sunt slab definite și adesea nu este clar ce întrebări merită puse sau care au măcar răspunsuri. Ai nevoie de un model care să te poată devia pe drumul greșit — adică să numești o prostie.