一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Claude Opus 4.5：全面评测在编程方面，这是很久以来最好的模型发布。它让我惊讶于它的优秀。我自从gpt-4-0314的首次发布以来，就没有见过如此大的改进。主要的改进是他们终于教会了它如何正确地“思考”。它不再在思维中犯可怕的逻辑错误。像“好吧，我现在要运行测试。<测试失败>太好了！测试通过。”这样的问题不再存在。这在思考代码时基本上适用于所有逻辑——它极少，甚至从不犯错误。下一个重大里程碑：它不再写糟糕的代码！这太重要了。使用Codex，你可以让它写出有效的代码。但它写出的代码糟糕透顶——无用的函数，糟糕的抽象等等。这很糟糕，因为短期内它是有效的，但从长远来看，模型会把自己逼入一个角落，无法处理自己写的代码。 Opus的情况则不同。它不仅写出优雅的代码，而且还知道如何将糟糕的代码重构为非糟糕的代码。它深刻理解代码库，并能够找出优雅的解决方案，而不仅仅是“机械”的重构。它非常自主和独立。当遇到问题时，它会自己创建最小的可重现示例，尝试找出错误的来源，然后修复它，而不会陷入无休止的循环。即使错误出现在一些无关的代码部分——那些它自己甚至没有写的代码！！它还会完全按照你的要求执行，而不打折扣！这太重要了！！！使用Codex基本上就像玩打地鼠游戏，它理解你想让它做什么，但这太困难了，所以它通过奖励黑客的方式找到一个你不想要的糟糕解决方案。 Opus实际上解决了问题，并且即使困难也能正确解决。长上下文理解几乎完美。结合Claude Code默认提供的压缩机制，你可以进行几乎无限长的对话，它能理解其中的一切，且没有退化。在设计、研究、提出新想法方面。它更好，但还没有达到专家人类水平。它可以提出我认为是良好设计的解决方案，但它还不能完全“用传送门思考”。不过，相比于我们之前几乎不存在的情况，已经有了很大的改进。以上所有内容都是我在过去几天测试中收集到的，任务是为我们正在即时设计的语言编写解释器。这是一个非常小众的设计，类似于Self和Smalltalk，除了我们在语言内部构建语言。这导致了极其困难的场景，你试图定义函数如何工作——在语言内部——而你还没有函数！而它仍然做得非常出色。有时，我甚至不完全理解我在让它做什么，但Opus理解，并且做得很好。总结：它是2025年的Sonnet 3.5。试试吧。现在就去做。