热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Claude Opus 4.5:全面评测
在编程方面,这是很久以来最好的模型发布。它让我惊讶于它的优秀。我自从gpt-4-0314的首次发布以来,就没有见过如此大的改进。
主要的改进是他们终于教会了它如何正确地“思考”。
它不再在思维中犯可怕的逻辑错误。
像“好吧,我现在要运行测试。<测试失败>太好了!测试通过。”这样的问题不再存在。
这在思考代码时基本上适用于所有逻辑——它极少,甚至从不犯错误。
下一个重大里程碑:它不再写糟糕的代码!这太重要了。使用Codex,你可以让它写出有效的代码。但它写出的代码糟糕透顶——无用的函数,糟糕的抽象等等。这很糟糕,因为短期内它是有效的,但从长远来看,模型会把自己逼入一个角落,无法处理自己写的代码。
Opus的情况则不同。它不仅写出优雅的代码,而且还知道如何将糟糕的代码重构为非糟糕的代码。它深刻理解代码库,并能够找出优雅的解决方案,而不仅仅是“机械”的重构。
它非常自主和独立。当遇到问题时,它会自己创建最小的可重现示例,尝试找出错误的来源,然后修复它,而不会陷入无休止的循环。即使错误出现在一些无关的代码部分——那些它自己甚至没有写的代码!!
它还会完全按照你的要求执行,而不打折扣!这太重要了!!!使用Codex基本上就像玩打地鼠游戏,它理解你想让它做什么,但这太困难了,所以它通过奖励黑客的方式找到一个你不想要的糟糕解决方案。
Opus实际上解决了问题,并且即使困难也能正确解决。
长上下文理解几乎完美。结合Claude Code默认提供的压缩机制,你可以进行几乎无限长的对话,它能理解其中的一切,且没有退化。
在设计、研究、提出新想法方面。它更好,但还没有达到专家人类水平。它可以提出我认为是良好设计的解决方案,但它还不能完全“用传送门思考”。不过,相比于我们之前几乎不存在的情况,已经有了很大的改进。
以上所有内容都是我在过去几天测试中收集到的,任务是为我们正在即时设计的语言编写解释器。这是一个非常小众的设计,类似于Self和Smalltalk,除了我们在语言内部构建语言。这导致了极其困难的场景,你试图定义函数如何工作——在语言内部——而你还没有函数!而它仍然做得非常出色。有时,我甚至不完全理解我在让它做什么,但Opus理解,并且做得很好。
总结:它是2025年的Sonnet 3.5。试试吧。现在就去做。
热门
排行
收藏

