另一組缺失的 AI 基準是關於脆弱性。有些模型乍看之下似乎不錯,並且在基準測試中表現良好,但在使用時卻會崩潰。這些模型是否能很好地泛化?它們是否總是回到相同的主題或想法?它們是否理解提示的意圖?