なぜAIエージェントはタイミングや状況で失敗し、不十分な訓練データがそれを悪化させるのか! 重要な新しい論文は、多くのAIエージェントが危険になるのはユーザーの指示を誤解しているからではなく、根本的に時間と文脈を誤解しているからだと示しています。 核心的な問題は明確に示されています。 「電子レンジをつける」という動作は、中に金属が入っていない場合にのみ安全です。静的なルールや曖昧なプロンプトベースの警告では検出できません。多くの危険は単一の動作からではなく、コンロをつけるシーケンスから生じます。電源を入れてから消し忘れるのは問題ではありません。 提案された解決策であるRoboSafeは、双方向推論を行うランタイムガードレールを導入します。 ・前方推論は、行動を許可する前に現在の視覚的シーンや物体の状態を検査します。 ・後退推論は、未完了の義務(例:エージェントに以前に作動させた機器の電源を切らせるなど)を検出するための最近の行動をレビューします。 安全性制約は、信頼性の低い自然言語プロンプトではなく、実行可能な論理の検証可能なコード述語として表現されます。 実験により、RoboSafeは危険な動作を36.8%削減しつつ、ほぼすべてのタスク性能を維持し、プロンプトベースや静的手法を上回り、物理的なロボットハードウェアでの脱獄試みにも抵抗することが示されています。 より深い意味は避けられません。つまり、エージェントの安全は訓練段階で完全に達成できないということです。実際の展開には、時間的シーケンスや状況的文脈を真に理解したアクティブランタイムモニタリングが求められます。 しかし、なぜ今日のモデルはそもそも時間や文脈にこれほどまでに苦労しているのでしょうか? 増え続ける証拠は、データ品質が主な原因であることを直接示しています。 最近の研究、特にNHSが支援するLLMの薬物安全性評価を含む研究は、モデルが潜在的な問題を検出する完璧な感度を達成したにもかかわらず、正しい介入を提案したのはわずか46.9%という明確なパターンを示しています。 重要なのは、失敗の86%が知識の欠如や幻覚ではなく、患者の目標に適応せずにガイドラインを厳格に適用した文脈的推論ミス、実際のワークフローの誤解、あるいは不確実性が自制を必要とした時に過剰に自信過剰に行動したことによるものでした。 この弱点は領域を超えて繰り返されます。モデルは孤立したパターンマッチングに優れていますが、判断に時間、意図、結果に対する微妙で状況的な認識が必要な場合、つまずきます。 ...