欠けている別の AI ベンチマークのセットは、脆さに関するものです。最初は良さそうでベンチマークではうまくいっているが、それらを使ってみると故障するモデルがあります。モデルはうまく一般化されますか?彼らはいつも同じテーマやアイデアに戻りますか?彼らは迅速な意図を理解していますか?