Ein weiteres Set fehlender AI-Benchmarks betrifft die Zerbrechlichkeit. Es gibt Modelle, die auf den ersten Blick gut erscheinen und bei Benchmarks gut abschneiden, aber versagen, wenn man mit ihnen arbeitet. Generalisieren die Modelle gut? Kehren sie immer zu denselben Themen oder Ideen zurück? Verstehen sie die Absicht des Prompts?