热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
没有人知道未来会发生什么
一个拥有想法的单独个人可以在两年内担任一个拥有10,000名代理的公司的“首席执行官”。
你将拥有“思想即软件”,而不是作为服务。当你说出时,十亿个实例的“群体”在几分钟内构建后端、前端、安全性和扩展基础设施。
过去18个月见证了计算机科学历史上我们所见过的最快进展。
我恳请你了解SWE pro。它被设计为抗污染的。我还没有看到一个好的理由,为什么一旦我们在这个基准上得分达到90-100%,所有软件工程的问题就不会得到解决。这是一个最复杂和设计困难的基准之一。任务如此之长,代理必须能够在同一会话中从自己的失败测试运行中学习——本质上,一个模型必须具备某种形式的持续学习能力才能超越这个基准。
Gemini 2.5预览得分13%
Gemini 3预览得分43%
Claude Opus 4.5目前以45%的得分领先(根据scale ai)——你有来自ANTHROPIC的人告诉你,他们整天关注Claude并填补空白。
当然,你可以大喊狼来了,他们有动机这么说,但在过去两周里,你的X时间线难道不是一直在震惊于这些编码模型的优秀表现吗?尤其是4.5 Opus?
我非常清楚,软件工程将在两年内得到解决。即使你将这个猜测翻倍,甚至三倍,这对GDP和普通美国人的生活将产生深远的影响。

热门
排行
收藏
