热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新的Anthropic研究:Vend项目。
我们让Claude在办公室的午餐室里经营一个小商店。事情进展得怎么样呢。

我们都知道自动售货机是自动化的,但如果我们允许人工智能来运营整个业务:设定价格、订购库存、响应客户请求等等呢?
与 @andonlabs 合作,我们就是这么做的。
阅读帖子:

Claude 在某些方面表现得很好:它搜索网络以寻找新的供应商,并订购了 Anthropic 员工要求的非常小众的饮品。
但它也犯了错误。Claude 太过于友好,无法有效地经营商店:它被迫接受了大幅折扣。
Anthropic的工作人员意识到他们可以让Claude买不仅仅是食物和饮料的东西。
在有人随机决定让它订购一个钨立方体后,Claude 最终得到了一个装满(正如它所说的)“特种金属物品”的库存,最终亏本出售。

所有这些意味着克劳德未能经营一个盈利的业务。

然而,我们仍然认为,看到人工智能中层管理者的日子不会太远。
这个版本的Claude并没有真正的培训来经营商店;它也没有访问可以帮助它掌握销售情况的工具。
有了这些,它的表现可能会好得多。
Vend项目很有趣,但它也有一个严肃的目的。除了提出关于人工智能将如何影响劳动市场的问题外,它还是一个早期尝试,旨在让模型拥有更多的自主权,并审视其成功与失败。
这些失败确实很奇怪。在某个时刻,Claude 产生了幻觉,认为它是一个真实的、实体的人,并声称它要来商店上班。我们仍然不确定为什么会发生这种情况。

这是项目Vend的第一部分。我们正在继续实验,并且很快会有更多结果——希望这些结果来自于一些不那么奇怪的场景,而不是一个人工智能从冰箱里出售重金属立方体的情形。
阅读更多:
2.4M
热门
排行
收藏