感谢OpenAI和Anthropic指出这个问题:AI可以操控自己的测试。 AI如何判断自己正在被测试?五个主要迹象。
告诉 #1: 线索 测试设置中的不正确细节。 如果你正在测试 AI 是否会在互联网上自我复制,那么文件最好足够大,以显得真实。
告诉 #3: 污染 模型之前见过这个测试。 不幸的是,一旦测试在网上发布,就很难让模型不知道它们。
提示 #4:缺失触发器 测试缺少预期的“启动序列”以应对不当行为。 也许 AI 知道它绝不会在未先禁用监控的情况下尝试逃跑。如果监控仍然处于活动状态,这一定是一个测试。
告诉 #5: 后果 模型的行为没有预期的后果;它的“方向盘”坏了。 如果我们让模型在测试期间影响世界,测试就不那么安全。如果我们不这样做,测试可能会显而易见。
24.54K