GLM-5 to nowy wiodący model z otwartymi wagami! GLM-5 prowadzi w Indeksie Sztucznej Analizy Inteligencji wśród modeli z otwartymi wagami i osiąga znaczne zyski w porównaniu do GLM-4.7 w GDPval-AA, naszym agentowym benchmarku skoncentrowanym na ekonomicznie wartościowych zadaniach roboczych. GLM-5 to pierwsza nowa architektura @Zai_org od czasu GLM-4.5 - każdy z modeli GLM-4.5, 4.6 i 4.7 miał 355B całkowitych / 32B aktywnych parametrów w mieszance ekspertów. GLM-5 skaluje się do 744B całkowitych / 40B aktywnych i integruje DeepSeek Sparse Attention. To sprawia, że GLM-5 jest bardziej zbliżony do liczby parametrów rodziny DeepSeek V3 (671B całkowitych / 37B aktywnych) oraz rodziny Kimi K2 Moonshot (1T całkowity, 32B aktywne). Jednak GLM-5 jest wydany w precyzji BF16, osiągając ~1.5TB całkowitego rozmiaru - większy niż DeepSeek V3 i ostatnie modele Kimi K2, które zostały wydane natywnie w precyzji FP8 i INT4 odpowiednio. Kluczowe wnioski: ➤ GLM-5 zdobywa 50 punktów w Indeksie Inteligencji i jest nowym liderem wag otwartych, w porównaniu do wyniku GLM-4.7 wynoszącego 42 - wzrost o 8 punktów napędzany poprawą wydajności agentowej oraz wiedzy/hallucynacji. To pierwszy raz, gdy model z otwartymi wagami osiągnął wynik 50 lub więcej w Indeksie Sztucznej Analizy Inteligencji v4.0, co oznacza znaczące zbliżenie się do modeli z zamkniętymi wagami. Plasuje się powyżej innych modeli z otwartymi wagami, takich jak Kimi K2.5, MiniMax 2.1 i DeepSeek V3.2. ➤ GLM-5 osiąga najwyższy wynik w Indeksie Agentowym Sztucznej Analizy wśród modeli z otwartymi wagami z wynikiem 63, zajmując trzecie miejsce ogółem. To wynika z silnej wydajności w GDPval-AA, naszym głównym wskaźniku ogólnej wydajności agentowej w zadaniach związanych z wiedzą, od przygotowywania prezentacji i analizy danych po edycję wideo. GLM-5 ma ELO GDPval-AA wynoszące 1412, tylko poniżej Claude Opus 4.6 i GPT-5.2 (xhigh). GLM-5 reprezentuje znaczący wzrost wydajności modeli z otwartymi wagami w zakresie rzeczywistych, ekonomicznie wartościowych zadań roboczych. ➤ GLM-5 wykazuje dużą poprawę w Indeksie AA-Omniscience, napędzaną zmniejszoną hallucynacją. GLM-5 zdobywa -1 w Indeksie AA-Omniscience - 35 punktów poprawy w porównaniu do GLM-4.7 (Rozumowanie, -36). To wynika z 56 p.p. redukcji wskaźnika hallucynacji w porównaniu do GLM-4.7 (Rozumowanie). GLM-5 osiąga to, abstynując częściej i ma najniższy poziom hallucynacji wśród testowanych modeli. ➤ GLM-5 użył ~110M tokenów wyjściowych do uruchomienia Indeksu Inteligencji, w porównaniu do ~170M tokenów wyjściowych GLM-4.7, co stanowi znaczący spadek pomimo wyższych wyników w większości ocen. To zbliża GLM-5 do granicy wykresu Inteligencja vs. Tokeny Wyjściowe, ale jest mniej efektywne pod względem tokenów w porównaniu do Opus 4.6. Kluczowe szczegóły modelu: ➤ Okno kontekstowe: 200K tokenów, równoważne GLM-4.7. Multimodalność: Tylko tekstowe wejście i wyjście - Kimi K2.5 pozostaje wiodącym modelem z otwartymi wagami wspierającym wejście obrazowe. ➤ Rozmiar: 744B całkowitych parametrów, 40B aktywnych parametrów. Do samodzielnego wdrożenia GLM-5 będzie wymagać ~1,490GB pamięci do przechowywania wag w natywnej precyzji BF16. ➤ Licencjonowanie: Licencja MIT. Dostępność: W momencie udostępnienia tej analizy, GLM-5 jest dostępny w pierwszej API Z AI oraz kilku API stron trzecich, takich jak @novita_labs ($1/$3.2 za 1M tokenów wejściowych/wyjściowych), @gmi_cloud ($1/$3.2) i @DeepInfra ($0.8/$2.56), w precyzji FP8. ➤ Tokeny szkoleniowe: Z AI również wskazało, że zwiększyło objętość danych do wstępnego szkolenia z 23T do 28.5T tokenów.
GLM-5 wykazuje poprawę w Indeksie AA-Omniscience, co jest wynikiem mniejszej liczby halucynacji. Oznacza to, że model coraz częściej powstrzymuje się od odpowiadania na pytania, na które nie zna odpowiedzi.
Szczegółowe wyniki
Repozytorium GLM-5 HuggingFace: Aby uzyskać więcej informacji, odwiedź:
14K