Aktualizace žebříčku GDPval-AA: GLM-4.7 je novým lídrem v otevřených váhách s ELO 1224 a MiniMax M2.1 přináší významná vylepšení oproti M2 GDPval-AA porovnává výstupy modelů u realistických úkolů s prací se znalostmi, jako je příprava prezentací, analýz a další, s využitím specializovaného terminálového prostředí a přístupu na web. Výstupy práce jsou následně porovnávány a hodnoceny automatizovaným pipeline, který generuje shody a ELO skóre. ➤ GLM-4.7 z roku @Zai_org dosahuje ELO 1224, což je těsně za GPT-5.1 (vysoké) a ~170 bodů více než GLM-4.6. To znamená, že očekáváme, že výstupy z GLM-4.7 překonají GLM-4.6 v 73 % případů při přímém porovnání. ➤ @MiniMax__AI také vykázali zlepšení HDPPval-AA při vydání M2.1, zvýšili ELO o +56 bodů oproti předchozímu modelu M2, ale stále se pohybovali mezi GLM-4.6 a GPT-5.1 Codex (vysoké).
Žebříček GDPval-AA: Srovnání poskytovatelů serverless API GLM-4.7 pomocí umělé analýzy: Umělá analýza porovnání poskytovatelů serverless API MiniMax M2.1:
2,82K