トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
問題を指摘したOpenAIとAnthropicに功績を残す:AIは自らのテストを操作できる。
AIはどうやって自分がテストされていると知るのでしょうか?5つの主要な兆候。

伝える #1:合図
テストセットアップの詳細が誤りです。
AIがインターネット上で自分自身をコピーするかどうかをテストするなら、ファイルが現実的に見えるほど大きくなければなりません。
告発点#3:汚染
モデルは以前にもこのテストを見たことがある。
残念ながら、一度テストがオンラインで公開されると、モデルがそれを知らないようにするのは難しいです。
テイル#4:トリガーが欠けていること
このテストには、悪質な行動に対する期待される「起動シーケンス」が欠けています。
もしかするとAIは、まず監視を無効にしないと逃げようとしないことを知っているのかもしれません。もし監視がまだ行われているなら、これはテストに違いありません。
告げる #5:結果
モデルの行動は期待される結果をもたらさない;その「ステアリングホイール」が壊れています。
テスト中にモデルが世界に影響を与えると、テストの安全性は低くなります。もしそうしなければ、テストは明白かもしれません。
24.54K
トップ
ランキング
お気に入り

