Et annet sett med manglende AI-benchmarks handler om sprøhet. Det er modeller som virker bra i begynnelsen og gjør det bra på benchmarks, men som går i stykker når du jobber med dem. Generaliserer modeller godt? Kommer de alltid tilbake til de samme temaene eller ideene? Forstår de rask intensjon?