GLM-5 adalah model bobot terbuka terkemuka baru! GLM-5 memimpin Indeks Kecerdasan Analisis Buatan di antara model bobot terbuka dan membuat keuntungan besar dibandingkan GLM-4,7 dalam GDPval-AA, tolok ukur agen kami yang berfokus pada tugas kerja yang bernilai secara ekonomi GLM-5 adalah arsitektur baru pertama @Zai_org sejak GLM-4.5 - masing-masing model GLM-4.5, 4.6 dan 4.7 adalah campuran parameter aktif 355B / 32B parameter aktif dari model ahli. GLM-5 menskalakan ke 744B total / 40B aktif, dan mengintegrasikan DeepSeek Sparse Attention. Ini menempatkan GLM-5 lebih sejalan dengan jumlah parameter keluarga DeepSeek V3 (total 671B / 37B aktif) dan keluarga Kimi K2 Moonshot (total 1T, 32B aktif). Namun, GLM-5 dirilis dalam presisi BF16, dengan ukuran total ~1,5TB - lebih besar dari DeepSeek V3 dan model Kimi K2 terbaru yang masing-masing telah dirilis secara asli dalam presisi FP8 dan INT4. Kesimpulan utama: GLM-5 mendapat skor 50 pada Indeks Intelijen dan merupakan pemimpin bobot terbuka yang baru, naik dari skor GLM-4.7 sebesar 42 - lompatan 8 poin yang didorong oleh peningkatan kinerja agen dan pengetahuan/halusinasi. Ini adalah pertama kalinya model bobot terbuka mencapai skor 50 atau lebih pada Indeks Kecerdasan Analisis Buatan v4.0, yang mewakili penutupan kesenjangan yang signifikan antara model bobot eksklusif dan terbuka. Ini ditempatkan di atas model bobot terbuka perbatasan lainnya seperti Kimi K2.5, MiniMax 2.1 dan DeepSeek V3.2. GLM-5 mencapai skor Indeks Agen Analisis Buatan tertinggi di antara model bobot terbuka dengan skor 63, peringkat ketiga secara keseluruhan. Hal ini didorong oleh kinerja yang kuat dalam GDPval-AA, metrik utama kami untuk kinerja agen umum pada tugas kerja pengetahuan mulai dari persiapan presentasi dan analisis data hingga pengeditan video. GLM-5 memiliki GDPval-AA ELO 1412, hanya di bawah Claude Opus 4.6 dan GPT-5.2 (xhigh). GLM-5 mewakili peningkatan yang signifikan dalam kinerja model beban terbuka pada tugas kerja yang bernilai secara ekonomi di dunia nyata GLM-5 menunjukkan peningkatan besar pada Indeks AA-Omniscience, didorong oleh berkurangnya halusinasi. Skor GLM-5 -1 pada AA-Omniscience Index - peningkatan 35 poin dibandingkan dengan GLM-4.7 (Reasoning, -36). Hal ini didorong oleh pengurangan 56 p.p dalam tingkat halusinasi dibandingkan dengan GLM-4.7 (Reasoning). GLM-5 mencapai ini dengan berpantang lebih sering dan memiliki tingkat halusinasi terendah di antara model yang diuji GLM-5 menggunakan ~110 juta token keluaran untuk menjalankan Indeks Intelijen, dibandingkan dengan ~170 juta token keluaran GLM-4.7, penurunan yang signifikan meskipun skor lebih tinggi di sebagian besar evaluasi. Ini mendorong GLM-5 lebih dekat ke perbatasan grafik Intelijen vs. Token Output, tetapi kurang efisien token dibandingkan dengan Opus 4.6 Detail model utama: ➤ Jendela konteks: 200K token, setara dengan GLM-4.7 Multimodalitas: Input dan output teks saja - Kimi K2.5 tetap menjadi model bobot terbuka terkemuka untuk mendukung input gambar ➤ Ukuran: 744B total parameter, 40B parameter aktif. Untuk penyebaran sendiri, GLM-5 akan membutuhkan memori ~1.490GB untuk menyimpan bobot dalam presisi BF16 asli ➤ Lisensi: Lisensi MIT Ketersediaan: Pada saat membagikan analisis ini, GLM-5 tersedia di API pihak pertama Z AI dan beberapa API pihak ketiga seperti @novita_labs ($1/$3.2 per 1 juta token input/output), @gmi_cloud ($1/$3.2) dan @DeepInfra ($0.8/$2.56), dalam presisi FP8 ➤ Token Pelatihan: Z AI juga mengindikasikan telah meningkatkan volume data pra-pelatihan dari 23T menjadi 28.5T token
GLM-5 menunjukkan peningkatan dalam Indeks AA-Omniscience, didorong oleh halusinasi yang lebih rendah. Ini berarti model lebih banyak menjauhkan diri dari menjawab pertanyaan yang tidak diketahuinya
Perincian hasil lengkap
GLM-5 Repositori HuggingFace: Untuk informasi lebih lanjut, kunjungi:
14,03K