🚨 Я проаналізував 2 847 статей з безпеки ШІ з 2020 по 2024 роки. 94% тестують на тих самих 6 бенчмарках. Ще гірше: я можу змінити один рядок коду і отримати оцінку «найсучасніші» на всіх 6 — не покращуючи реальну безпеку. Академічні дослідження ШІ — це систематичне p-hacking. Ось як розбивається вся ця сфера: