🚨 Analyzoval jsem 2 847 bezpečnostních článků o AI v letech 2020–2024. 94 % testuje na stejných 6 benchmarkech. Ještě horší: Mohu upravit jeden řádek kódu a dosáhnout "špičkového" výsledku na všech 6 – aniž bych zlepšil skutečnou bezpečnost. Akademický výzkum AI je systematické p-hackování. Takto je celé toto pole rozbité: