Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Měření pokroku v bezpečnosti AI je otázka, kterou si klade mnoho lidí.
1. Nejlepším měřítkem je výše získané odměny spolu s nějakým způsobem, jak měřit dopad brouků. Některé žebříčky odměn jsou bodované, například HackerOne; jiné jsou založené na výplatě, oba jsou užitečné. Pokud váš nástroj nedokáže najít živé kritické body nebo 0 dní, je k ničemu.
2. Srovnání vedle sebe s nedávným auditem. Jaké procento kritických zásahů / vysokých / středních zásahů bylo nalezeno AI nástrojem? Nepoužívej starý veřejný repozitář s publikovaným auditem, protože je často v tréninkové sadě.
3. Otevřené datové sady nejsou efektivní pro benchmarking. S těmito je snadné benchmarkovat maximum. To vidíte často u modelů Frontier; Model s nejlepším benchmarkem nemusí být nutně ten, který dosahuje nejlepších.
Osobně si myslím, že nejlepší měřítko je kvalitativní. Spusť to na kódu, o kterém víš, že má známé chyby: líbí se ti zjištění, která vidíš z AI nástroje, nebo se ti líbí kvalita popisu? Nejlepší nástroj vytvoří články, které budou vypadat nerozeznatelně pro ruční recenzi.
Top
Hodnocení
Oblíbené
