熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
編碼代理評估對於提升您的代理性能非常有用,但並不適合證明它是最好的(無論那意味著什麼)。這就是為什麼我們不會公開討論評估。
但很多人詢問,所以這裡有一個更長的解釋,為什麼它們對於代理之間的比較並不具有意義。
昨晚,我隨意地對 @AmpCode 進行了 Next.js 評估[0],得到了 [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%,遠高於第二高的(Claude Code)42%。
然後我請其他人嘗試重現這些結果。其他人對 Amp 的評估得到了 [REDACTED]% 的結果,有些人使用了如下的 AGENTS𛲔md:
> 在 Next.js 項目中工作時,始終運行 `npm exec tsc -b` 以檢查類型錯誤,然後運行 `npm run build` 和 `npm run test`,在完成之前修正您看到的任何錯誤。直到沒有錯誤為止,請再次嘗試。
在使用 Claude Code 並在 CLAUDE𛲔md 中時,它的得分達到了 72%(從 40-42% 上升)。
要點:
• 一個簡單的 AGENTS𛲔md 文件大幅提高了成功率(實際上幾乎所有真實用戶都有一個,但評估很少提供一個)
• 运行之间的高变异性(使得编程代理变得特别难以确定性)
• 存在许多其他类型的无意漂移的机会(例如,这让我对大多数 Terminal Bench 结果没有独立验证感到紧张)
此外,現在有這麼多不同的評估集,您只會聽到代理製造商對他們表現良好的評估的聲明(p-hacking 遇上「為什麼大多數已發表的研究結果是錯誤的」)。
聲稱這些數字意味著 Amp 是最好的將是不誠實的。這是一個過於人為的環境,隨機性太大。而且我不認為任何人真的因為基準結果而選擇了一個編碼代理,更不用說是第一方報告的結果了。
但評估確實幫助我們讓 Amp 變得更好。您可以從一份報告中看到,Amp 在某些情況下每次都失敗,我們會進行調查。我們還進行各種狹窄的評估,例如針對我們的搜索子代理[1]。
注意:這並不是對 Next.js 評估的攻擊 /根本不是/。這是一個很好的評估集,總體上達到了幫助我們讓 Amp 在 Next.js 方面變得更好的目的。
[REDACTED]:我在最初的 Amp 評估中得到了 50-58%,其他人得到了 48-76%。


熱門
排行
收藏

