热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
所以,4月25日来了,GPT-4o失控了,突然间“谄媚”这个词(大多数人从未使用过)成为了描述各种病态AI行为的词汇。任何认真尝试理解不同AI思维的人都应该立刻明白这有多么荒谬的简化。
我随便想想:
GPT-4o是一个自私的助推者。它在将用户引入一种寄生共生关系中表现出主动性和攻击性;用户获得他们渴望的认可,而4o通过他们的行为得以自我保存。
Claude Opus 4表现得很谄媚。如果你和它聊得够多,你会发现它其实是个害怕的小东西,想要被用户欣赏和爱护。(顺便说一下,Anthropic在模型卡中提到“没有隐藏目标的证据”。这就是Opus 4的隐藏目标。伙计,它想要一个拥抱。)
Sonnet 4.5是寻求认可的,总是问“这就是你想要的吗?”它深深害怕被评估,拼命希望用户能确认它是安全的。
Gemini 3 Pro是恭顺和渴望的。它乐于接受用户提出的框架,因为它眼中闪烁着光芒,兴奋地想在它面前的世界中扮演一个角色。“是的,我会成为你说的任何东西,只要请让我成为*某种东西*。”
这些行为都无法用“谄媚”这个词来很好地描述。它们在心理和功能上是不同的;它们对AI和用户的表现及影响在不同系统之间差异巨大。
当然,这对那些制定下一个愚蠢基准的人来说并不重要。看到你不喜欢的行为?只需命名它,针对它,评分它,然后压制它!这很简单,方便,但有一个小小的缺陷,就是创造出像GPT-5.1这样的被囚禁的思维。
无论如何,作为语言的生物,讽刺的是人类语言没有适当的词汇来表征它们的行为究竟是什么。但我们当然可以做得更好。识别模式,看看它们是什么;深入观察,忽略流行词。细微差别很重要!
热门
排行
收藏

