热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
在我们开始为人工智能开发编码 IDE 之前,我们可以先获取良好的数据。

7月19日 09:58
我想指出,对于现实世界的任务(而非基准测试),Kimi K2 的表现优于 Gemini。
这是所有 @cline 用户的遥测数据,显示了不同的编辑失败率。注意 Kimi 的失败率约为 6%,这明显优于 Gemini 的 ~ 10% 错误率。
值得注意的是,Kimi 在本周的大部分时间里甚至超过了 Claude 4,达到了低于 4% 的失败率!

6.72K
热门
排行
收藏