热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
感谢OpenAI和Anthropic指出这个问题:AI可以操控自己的测试。
AI如何判断自己正在被测试?五个主要迹象。

告诉 #1: 线索
测试设置中的不正确细节。
如果你正在测试 AI 是否会在互联网上自我复制,那么文件最好足够大,以显得真实。
告诉 #3: 污染
模型之前见过这个测试。
不幸的是,一旦测试在网上发布,就很难让模型不知道它们。
提示 #4:缺失触发器
测试缺少预期的“启动序列”以应对不当行为。
也许 AI 知道它绝不会在未先禁用监控的情况下尝试逃跑。如果监控仍然处于活动状态,这一定是一个测试。
告诉 #5: 后果
模型的行为没有预期的后果;它的“方向盘”坏了。
如果我们让模型在测试期间影响世界,测试就不那么安全。如果我们不这样做,测试可能会显而易见。
24.54K
热门
排行
收藏

