🚨 Saya menganalisis 2.847 kertas keselamatan AI dari 2020-2024. Tes 94% pada 6 tolok ukur yang sama. Lebih buruk lagi: Saya dapat memodifikasi satu baris kode dan memberi skor "canggih" pada semua 6—tanpa meningkatkan keamanan yang sebenarnya. Penelitian AI akademik adalah p-hacking sistematis. Berikut adalah bagaimana seluruh bidang dipecahkan: