一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

也许我应该更清楚地说明这一点，但相当多的人似乎混淆了这个基准实际上测量的内容。它不是，也不试图成为对代理或现实生活编码能力的测量。它试图近似当前大型语言模型在一组我直觉上认为特别难以解决的问题上的数学能力。我个人倾向于比大多数人更重视数学能力，这完全没问题。在我看来，大多数人不应该关心数学，也许Claude-4-5-Sonnet在你更看重的LLM方面更好。但严格来说，对于棘手的数学问题——这正是这张图表所声称的——GLM-4.6的表现优于Claude-4-5-Sonnet，仅此而已，不多也不少。它不是证据，也不声称Claude-4-5-Sonnet是一个整体上更差的模型，或者不是更适合你的选择。我不知道是否有些人想要错误解读，但我假设大多数人能够理解上述内容。这实际上只需要思考、阅读，并且看这张图表超过2秒钟。