BullshitBench v2 ist draußen! Es ist einer der wenigen Benchmarks, bei denen die Modelle im Allgemeinen nicht besser werden (außer Claude) und bei denen das Denken nicht hilft. Was ist neu: 100 neue Fragen, nach Bereichen (Programmierung (40 Fragen), Medizin (15), Recht (15), Finanzen (15), Physik (15)), über 70 getestete Modellvarianten. BullshitBench hat bereits 380 Starts auf GitHub - alle Fragen, Skripte, Antworten und Urteile sind dort, also schaut es euch an. TL;DR: - Ergebnisse repliziert - die neuesten Modelle von @AnthropicAI erzielen außergewöhnlich gute Ergebnisse - @Alibaba_Qwen ist ein weiterer sehr starker Performer - OpenAI- und Google-Modelle schneiden schlecht ab und verbessern sich nicht - Die Bereiche zeigen nicht viel Unterschied - die Raten der BS-Erkennung sind in allen Bereichen etwa gleich - Denken hat, wenn überhaupt, einen negativen Effekt - Neuere Modelle schneiden nicht viel besser ab als ältere (außer Anthropic) Links: - Daten-Explorer: - GitHub: Ich empfehle dringend den Daten-Explorer, wo ihr die Daten sowie die Fragen und Musterantworten studieren könnt.