Další sada chybějících benchmarků umělé inteligence se týká křehkosti. Existují modely, které se na první pohled zdají dobré a daří se jim dobře v benchmarcích, ale když s nimi pracujete, porouchají se. Zobecňují modely dobře? Vracejí se vždy ke stejným tématům nebo myšlenkám? Chápou okamžitý záměr?