熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Claude Opus 4.5:完整評測
在編程方面,這是很長一段時間以來最好的模型發布。它的表現讓我驚訝不已。我自從 gpt-4-0314 的原始版本發布以來,還沒有見過如此大的改進。
主要的改進是他們終於教會了它如何正確地「思考」。
它不再在思考中犯可怕的邏輯錯誤。
像「好吧,我現在要運行測試。<測試失敗> 太好了!測試通過。」這樣的問題不再存在。
這在思考代碼時幾乎適用於所有邏輯——它極少,甚至從不犯錯。
下一個重大里程碑:它不再寫糟糕的代碼!這是巨大的。使用 Codex,你可以讓它寫出有效的代碼。但它寫出的代碼糟透了——無用的函數,糟糕的抽象等等。這很糟糕,因為它短期內有效,但從長遠來看,模型會把自己逼入死胡同,無法再使用自己寫的代碼。
Opus 的情況則不同。它不僅寫出優雅的代碼,還知道如何將糟糕的代碼重構為非糟糕的代碼。它深刻理解代碼庫,能夠找出不僅僅是「機械性」重構的優雅解決方案。
它非常自主和獨立。當遇到問題時,它會自行創建最小可重現的例子,嘗試找出錯誤的來源,然後修復它,而不會陷入無法自拔的死胡同。即使錯誤出現在一些無關的代碼部分——那些它甚至自己都沒有寫的代碼!!
它也完全按照你的要求行事,沒有偷工減料!這是巨大的!!!使用 Codex 基本上就像玩打地鼠遊戲,它理解你想讓它做什麼,但這太困難了,所以它用獎勵黑客的方式找到一個你不想要的糟糕解決方案。
Opus 實際上解決了問題,並且即使困難也能正確解決。
長期上下文理解幾乎是完美的。配合 Claude Code 中默認可用的壓縮機制,你基本上可以進行無限長的對話,它能理解其中的一切,沒有任何退化。
在設計、研究、提出新想法方面。它更好,但還沒有達到專家人類的水平。它可以提出我認為是良好設計的解決方案,但它還不能完全「用傳送門思考」。不過,這比我們之前幾乎不存在的情況有了很大的改善。
以上所有內容都是我在過去幾天測試中收集的,任務是為我們即興設計的語言編寫解釋器。這是一個非常小眾的設計,類似於 Self 和 Smalltalk,除了我們在語言內部構建語言。這導致了極其困難的場景,當你試圖定義函數如何運作——在語言內部——而你還沒有函數!而它仍然做得非常出色。有時,我甚至不完全理解我在要求它做什麼,但 Opus 知道,並且做得很好。
簡而言之:它是 2025 年的 Sonnet 3.5。試試吧。現在就去做。
熱門
排行
收藏

