🚨 Przeanalizowałem 2,847 prac dotyczących bezpieczeństwa AI z lat 2020-2024. 94% testów opiera się na tych samych 6 benchmarkach. Gorzej: mogę zmodyfikować jedną linię kodu i uzyskać wynik "najlepszy w swojej klasie" we wszystkich 6—bez poprawy rzeczywistego bezpieczeństwa. Akademickie badania nad AI to systematyczne p-hacking. Oto jak cały ten obszar jest zepsuty: