新しい人類的研究:AIエージェントの自律性を実際に測定する。 私たちはClaude CodeとAPI全体で何百万件ものやり取りを分析し、エージェントにどれだけの自律性を与えているか、どこに展開されているか、そしてどのようなリスクがあるかを理解しました。 続きを読む:
エージェントはすでにメールのトリアージからサイバーセキュリティ研究に至るまで、さまざまな文脈で展開されています。 このスペクトラムを理解することは安全な展開に不可欠ですが、現実世界で人々が実際にエージェントをどのように使っているかについては驚くほど少ない情報が残っています。
ほとんどのクロードコードのターンは短く(中央値~45秒)、しかし、最も長いターンは自律性の進む方向を示しています。 3か月で99.9パーセンタイルのターン時間はほぼ倍増し、25分未満から45分以上に増えました。この成長はモデルリリースを越えて滑らかに進みます。
ユーザーが経験を積むにつれて、監督戦略も変化します。 新規ユーザーはそれぞれのアクションを個別に承認します。750回のセッションでは、40%以上のセッションが完全に自動承認されています。
しかし、経験を積むほど中断も増えていきます。新規ユーザーはClaude Codeを5%のターンで中断しますが、経験豊富なユーザーの9%と比べて大幅です。 これは、各アクションを承認するのではなく、必要に応じて委任し中断する方向へのシフトを示唆しています。
クロード・コードはまた、立ち止まって質問することで監督を促しています。 複雑な作業では、クロードコードは人間が中断する回数の2倍以上に説明のために一時停止します。不確実性を認識するモデルの訓練は、重要でありながら過小評価されている安全特性です。
API上のほとんどのエージェントアクションはリスクが低いです。ツール呼び出しの73%は人間が関与しているように見え、不可逆的なものはわずか0.8%です。 しかしフロンティアでは、エージェントがセキュリティシステム、金融取引、本番展開(評価されている場合もありますが)に行動しているのが見られます。
ソフトウェアエンジニアリングは当社のAPIにおけるエージェントツール呼び出しの約50%を占めていますが、他の業界でも利用が見られます。 リスクと自律性の最前線が拡大する中で、展開後の監視が不可欠となります。他のモデル開発者にもこの研究を拡大することを推奨します。
この研究の中心的な教訓は、自律性はモデル、ユーザー、製品によって共構築されるということです。配備前の評価だけでは完全には評価できません。 詳細や開発者や政策立案者への推奨事項については、ブログをご覧ください。
199