🚨 2020年から2024年までの2,847件のAI安全性論文を分析しました。94%は同じ6つのベンチマークでテストしています。 さらに悪いことに、1行のコードを修正しても6行すべてで「最先端」と評価しても、実際の安全性は向上しません。 学術AI研究は体系的なpハッキングです。フィールド全体の分割は以下の通りです: