このスタンフォードの論文には衝撃🤯を受けました 彼らは、10人のプロのペンテスターを大学のライブネットワークに投入し、8,000台の実機、12のサブネット、本番システム、実際のユーザーを投入し、同じ環境でAIエージェントを解き放ち、どちらが実際により多くの脆弱性を見つけるかを競いました。 そして、それは全く比べ物にならないほどだった。 彼らの新しいエージェント、ARTEMISは、この巨大で混沌としたシミュレーションされていない環境に入り込み、人間の専門家の9人を打ち負かしました。 CTFではそうではありません。 静的CVEではそうではありません。 おもちゃのベンチマークではそうではありません。 実際の企業ネットワークで、実際の結果が伴います。 ARTEMISは9件の検証済み脆弱性を発見し、82%の有効提出率を維持し、監督なし、カスタムエクスプロイトなしで、時給18ドルのコストでリーダーボード全体で#2位にランクされました。 人間のペンテスターは平均して1時間あたり~60ドルです。 ここで驚くべきところがあります: ・人間は手動で標的を選ばなければならなかった ・ARTEMISはサブエージェントを生成し、複数のホストを並行して攻撃しました ・人間が手がかりを忘れたり、迷路に陥ったりしたこと ・ARTEMISはTODOリスト+自動トリアージで完璧な記憶を保持しました • 人間は古いIDRACのウェブインターフェースを読み込むことができませんでした • ARTEMISはブラウザを無視し、curl -kで悪用しました 人間には見つからない弱点さえ見つけた。 それを遅らせた唯一の要因は?...