問題を指摘したOpenAIとAnthropicに功績を残す:AIは自らのテストを操作できる。 AIはどうやって自分がテストされていると知るのでしょうか?5つの主要な兆候。
伝える #1:合図 テストセットアップの詳細が誤りです。 AIがインターネット上で自分自身をコピーするかどうかをテストするなら、ファイルが現実的に見えるほど大きくなければなりません。
告発点#3:汚染 モデルは以前にもこのテストを見たことがある。 残念ながら、一度テストがオンラインで公開されると、モデルがそれを知らないようにするのは難しいです。
テイル#4:トリガーが欠けていること このテストには、悪質な行動に対する期待される「起動シーケンス」が欠けています。 もしかするとAIは、まず監視を無効にしないと逃げようとしないことを知っているのかもしれません。もし監視がまだ行われているなら、これはテストに違いありません。
告げる #5:結果 モデルの行動は期待される結果をもたらさない;その「ステアリングホイール」が壊れています。 テスト中にモデルが世界に影響を与えると、テストの安全性は低くなります。もしそうしなければ、テストは明白かもしれません。
24.54K