一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

感谢OpenAI和Anthropic指出这个问题：AI可以操控自己的测试。 AI如何判断自己正在被测试？五个主要迹象。

告诉 #1: 线索测试设置中的不正确细节。如果你正在测试 AI 是否会在互联网上自我复制，那么文件最好足够大，以显得真实。

告诉 #3: 污染模型之前见过这个测试。不幸的是，一旦测试在网上发布，就很难让模型不知道它们。

提示 #4：缺失触发器测试缺少预期的“启动序列”以应对不当行为。也许 AI 知道它绝不会在未先禁用监控的情况下尝试逃跑。如果监控仍然处于活动状态，这一定是一个测试。

告诉 #5: 后果模型的行为没有预期的后果；它的“方向盘”坏了。如果我们让模型在测试期间影响世界，测试就不那么安全。如果我们不这样做，测试可能会显而易见。

24.54K

热门

排行

收藏