Un altro insieme di benchmark AI mancanti riguarda la fragilità. Ci sono modelli che sembrano buoni all'inizio e si comportano bene nei benchmark, ma si rompono quando ci lavori. I modelli generalizzano bene? Ritornano sempre agli stessi temi o idee? Comprendono l'intento del prompt?