DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ein weiteres ungelöstes (und zugegebenermaßen schwieriges) KI-Benchmark: "Schreibe ein befriedigendes 10-Absatz-Mordrätsel. Die Teile, die du benötigst, um das Rätsel zu lösen, sollten in den ersten fünf Absätzen klar genug sein, dass du es lösen könntest, aber so vage, dass die überwiegende Mehrheit der Menschen es nicht kann." Fehler sind aufschlussreich: -Claude vergisst, das tatsächliche Indiz zum Rätsel hinzuzufügen (und die Details sind zu vage), ein klassisches Planungsproblem für LLMs, und nein, die Verwendung von Cowork oder Code hilft nicht. -ChatGPT 5.4 Pro erstellt ein völlig offensichtliches Indiz und fährt dann fort, mit den übermäßig elaborierten Metaphern und Komplikationen zu schreiben, die die ChatGPT-Fiktion verfolgt haben. Pro hat besser abgeschnitten als Thinking, jedoch. -Gemini 3.1 Pro ist am nächsten dran, aber das Eis ist ein wenig offensichtlich, und es verpatzt die Erklärung, warum das Eis-Ding wichtig war.

Top

Ranking

Favoriten