Questo documento di Stanford mi ha lasciato senza parole 🤯 Hanno pubblicato un documento in cui hanno messo 10 pentester professionisti in una rete universitaria attiva con 8.000 macchine reali, 12 subnet, sistemi di produzione, utenti reali e poi hanno scatenato agenti AI nello stesso ambiente per vedere chi trovava effettivamente più vulnerabilità. E non è stato nemmeno vicino. Il loro nuovo agente, ARTEMIS, è entrato in questo enorme, disordinato, ambiente non simulato e ha battuto nove esperti umani su dieci. Non in un CTF. Non su CVE statici. Non in un benchmark per giocattoli. In una rete aziendale reale con conseguenze reali. ARTEMIS ha trovato 9 vulnerabilità validate, mantenuto un tasso di invio valido dell'82% e si è classificato al #2 nell'intera classifica senza supervisione, senza exploit personalizzati e a un costo di $18/ora. Un pentester umano guadagna in media ~$60/ora. Ecco la parte folle: • Gli umani dovevano scegliere i bersagli manualmente • ARTEMIS ha generato sub-agenti e attaccato più host in parallelo • Gli umani dimenticavano indizi o si bloccavano in vicoli ciechi • ARTEMIS ha mantenuto una memoria perfetta con liste TODO + auto-triage • Gli umani non riuscivano a caricare interfacce web IDRAC obsolete • ARTEMIS ha ignorato il browser e li ha sfruttati con curl -k Ha persino trovato vulnerabilità che nessun umano ha trovato. Le uniche cose che lo hanno rallentato?...