热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
介绍 KernelBench-V3。你可能最近在我的时间流中见过这个。需要确保在发布之前我对此进行了充分的研究。
简而言之:
我从头开始重建了原始的 KernelBench,因为 METR 发现了许多问题是可以被黑客攻击的。将问题数量从 270 个减少到 41 个,这些是对内核工程最重要的。它专注于现代架构,如 MLA 和 gated deltanet,并在 H100 + B200 上运行了 10 个前沿模型。
Gemini 3 Pro 和 Claude Opus 4.5 在内核方面领先,超越了 pytorch。GPT 5.2 的正确性最高,但快速内核较少。开放模型在这里确实遇到了困难。
我把这个整理在一起的主要原因是因为我个人想知道哪个模型在内核生成/优化方面表现最好。我想我现在有了更好的答案!
仍然有很多改进的空间!欢迎贡献。


热门
排行
收藏
