感謝 @xai 團隊在凌晨 2:00 的努力,幫助我們完成這個任務 介紹 Agent Runner:第一個開源代理,與真實用戶一起運行,以創建現實編碼的實時基準 我們追蹤工具調用、重新提示和多文件編輯,從 @OpenAI、@xai、@GoogleDeepMind、@AnthropicAI、@MistralAI、@Zai_org、@Kimi_Moonshot 中挑選最佳的開始