🚨 Я проанализировал 2,847 статей по безопасности ИИ с 2020 по 2024 год. 94% тестируют на одних и тех же 6 бенчмарках. Хуже того: я могу изменить одну строку кода и получить "современный уровень" на всех 6 — не улучшая фактическую безопасность. Академические исследования ИИ — это систематическое p-hacking. Вот как вся область сломана: