Peut-être que j'aurais dû rendre cela plus clair, mais pas mal de gens semblent confondre ce que cette référence mesure réellement. Ce n'est PAS, et cela n'essaie pas d'être une mesure des capacités agentiques ou de codage IRL. Cela essaie d'approximer les capacités mathématiques des LLMs actuels sur un ensemble de problèmes que j'ai l'intuition sont particulièrement difficiles à résoudre pour les architectures de modèles d'aujourd'hui. Personnellement, j'ai tendance à valoriser les capacités mathématiques beaucoup plus que la plupart des gens, et c'est tout à fait acceptable. La plupart des gens ne devraient pas se soucier des mathématiques à mon avis et peut-être que Claude-4-5-Sonnet est meilleur pour des choses que vous valorisez davantage dans un LLM. Mais strictement pour des problèmes mathématiques délicats—et c'est ce que ce graphique affirme—GLM-4.6 surpasse juste Claude-4-5-Sonnet, ni plus, ni moins. Ce n'est PAS une preuve et cela ne prétend pas que Claude-4-5-Sonnet est un modèle globalement moins bon ou pas le meilleur choix pour vous. Je ne sais pas si certaines personnes veulent l'interpréter de manière erronée, mais je pensais que la majorité des gens pouvaient faire le transfert ci-dessus. Cela demande littéralement juste de réfléchir, de lire et de regarder le graphique pendant plus de 2 secondes.