Serangkaian tolok ukur AI lain yang hilang adalah seputar kerapuhan. Ada model yang tampak bagus pada awalnya & melakukannya dengan baik pada tolok ukur tetapi rusak ketika Anda bekerja dengannya. Apakah model menggeneralisasi dengan baik? Apakah mereka selalu kembali ke tema atau ide yang sama? Apakah mereka memahami niat segera?