Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Att mäta framsteg inom AI-säkerhet är en fråga som många ställer.
1. Det bästa måttet är mängden belöning som tjänats, tillsammans med något sätt att mäta insekternas påverkan. Vissa uppdragslistor är poängbaserade, som HackerOne; Andra är utbetalningsbaserade, båda är användbara. Om ditt verktyg inte kan hitta levande kritiska träffar eller 0 dagar är det värdelöst.
2. Jämförelse sida vid sida med en nyligen genomförd revision. Hur stor andel av Crits / High / Mediums hittades av AI-verktyget? Använd inte ett gammalt, offentligt repo med en publicerad revision eftersom det ofta finns i träningsuppsättningen.
3. Öppna datamängder är inte effektiva för benchmarking. Det är lätt att benchmarka max med dem. Det ser man ofta med frontier-modeller; Modellen med bäst benchmark är inte nödvändigtvis den som presterar bäst.
Jag tycker personligen att det bästa måttet är kvalitativt. Kör det på en kodbas som du vet har kända buggar: gillar du resultaten du ser från AI-verktyget, gillar du kvaliteten på texten? Det bästa verktyget kommer att producera texter som ser omöjliga att skilja från en manuell recension.
Topp
Rankning
Favoriter
