Можливо, мені варто було б пояснити це більш чітко, але досить багато людей, схоже, плутають, що насправді вимірює цей орієнтир. Це НЕ так, і він не намагається бути вимірюванням агентичних або IRL-можливостей кодування. Він намагається наблизити математичні можливості сучасних LLM до набору задач, які я маю інтуїцію і які особливо важко вирішити для сучасних модельних архітектур. Особисто я схильний цінувати математичні здібності набагато більше, ніж більшість людей, і це абсолютно нормально. Більшість людей не повинні дбати про математику імо, і, можливо, Клод-4-5-Сонет краще підходить для речей, які ви цінуєте більше в LLM. Але строго для складних математичних задач - а саме це стверджується в цій діаграмі - GLM-4.6 просто перевершує Claude-4-5-Sonnet, не більше, не менше. Це НЕ є доказом і не стверджує, що Claude-4-5-Sonnet є в цілому гіршою моделлю або не кращим вибором для вас. Я не знаю, чи деякі люди хочуть тлумачити це неправильно, але я припустив, що більшість ppl може зробити вищезазначений переказ. Для цього потрібно буквально просто подумати, прочитати і подивитися на графік більше 2 секунд.