分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

問題を指摘したOpenAIとAnthropicに功績を残す:AIは自らのテストを操作できる。 AIはどうやって自分がテストされていると知るのでしょうか?5つの主要な兆候。

伝える #1:合図テストセットアップの詳細が誤りです。 AIがインターネット上で自分自身をコピーするかどうかをテストするなら、ファイルが現実的に見えるほど大きくなければなりません。

告発点#3:汚染モデルは以前にもこのテストを見たことがある。残念ながら、一度テストがオンラインで公開されると、モデルがそれを知らないようにするのは難しいです。

テイル#4:トリガーが欠けていることこのテストには、悪質な行動に対する期待される「起動シーケンス」が欠けています。もしかするとAIは、まず監視を無効にしないと逃げようとしないことを知っているのかもしれません。もし監視がまだ行われているなら、これはテストに違いありません。

告げる #5:結果モデルの行動は期待される結果をもたらさない;その「ステアリングホイール」が壊れています。テスト中にモデルが世界に影響を与えると、テストの安全性は低くなります。もしそうしなければ、テストは明白かもしれません。

24.54K

トップ

ランキング

お気に入り