一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

編碼代理評估對於提升您的代理性能非常有用，但並不適合證明它是最好的（無論那意味著什麼）。這就是為什麼我們不會公開討論評估。但很多人詢問，所以這裡有一個更長的解釋，為什麼它們對於代理之間的比較並不具有意義。昨晚，我隨意地對 @AmpCode 進行了 Next.js 評估[0]，得到了 [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%，遠高於第二高的（Claude Code）42%。然後我請其他人嘗試重現這些結果。其他人對 Amp 的評估得到了 [REDACTED]% 的結果，有些人使用了如下的 AGENTS𛲔md： > 在 Next.js 項目中工作時，始終運行 `npm exec tsc -b` 以檢查類型錯誤，然後運行 `npm run build` 和 `npm run test`，在完成之前修正您看到的任何錯誤。直到沒有錯誤為止，請再次嘗試。在使用 Claude Code 並在 CLAUDE𛲔md 中時，它的得分達到了 72%（從 40-42% 上升）。要點： • 一個簡單的 AGENTS𛲔md 文件大幅提高了成功率（實際上幾乎所有真實用戶都有一個，但評估很少提供一個） • 运行之间的高变异性（使得编程代理变得特别难以确定性） • 存在许多其他类型的无意漂移的机会（例如，这让我对大多数 Terminal Bench 结果没有独立验证感到紧张）此外，現在有這麼多不同的評估集，您只會聽到代理製造商對他們表現良好的評估的聲明（p-hacking 遇上「為什麼大多數已發表的研究結果是錯誤的」）。聲稱這些數字意味著 Amp 是最好的將是不誠實的。這是一個過於人為的環境，隨機性太大。而且我不認為任何人真的因為基準結果而選擇了一個編碼代理，更不用說是第一方報告的結果了。但評估確實幫助我們讓 Amp 變得更好。您可以從一份報告中看到，Amp 在某些情況下每次都失敗，我們會進行調查。我們還進行各種狹窄的評估，例如針對我們的搜索子代理[1]。注意：這並不是對 Next.js 評估的攻擊 /根本不是/。這是一個很好的評估集，總體上達到了幫助我們讓 Amp 在 Next.js 方面變得更好的目的。 [REDACTED]：我在最初的 Amp 評估中得到了 50-58%，其他人得到了 48-76%。