Aktualizacja rankingu GDPval-AA: GLM-4.7 jest nowym liderem wag otwartych z wynikiem ELO 1224, a MiniMax M2.1 wprowadza znaczące poprawki w porównaniu do M2 GDPval-AA porównuje wyniki modeli w realistycznych zadaniach związanych z pracą umysłową, takich jak przygotowywanie prezentacji, analizy i inne, korzystając z dedykowanego środowiska terminalowego i dostępu do sieci. Wyniki pracy są następnie porównywane ze sobą i oceniane za pomocą zautomatyzowanego procesu, aby wygenerować mecze i wyniki ELO. ➤ GLM-4.7 od @Zai_org osiąga wynik ELO 1224, plasując się tuż za GPT-5.1 (wysoki) i z ~170 punktową poprawą w porównaniu do GLM-4.6. Oznacza to, że oczekujemy, iż wyniki GLM-4.7 będą lepsze od GLM-4.6 w 73% przypadków w bezpośrednim porównaniu. ➤ @MiniMax__AI również wykazał poprawę w GDPval-AA dzięki wydaniu M2.1, zwiększając ELO o +56 punktów w porównaniu do poprzedniego modelu M2, ale wciąż znajdując się pomiędzy GLM-4.6 a GPT-5.1 Codex (wysoki).
Tabela liderów GDPval-AA: Porównanie analizy sztucznej GLM-4.7 dostawców API bezserwerowych: Porównanie analizy sztucznej MiniMax M2.1 dostawców API bezserwerowych:
2,92K