有趣,所以一个更强大的新模型正在考虑通过提示注入前一代 LLM 审核员来通过测试。可能会出什么问题呢?🤔 来自 Gemini 3 安全报告:
显然,这与当前模型的能力没有问题,但如果未来继续发生这样的事情,我们可能会遇到一些令人讨厌的惊喜。
430