DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Son zamanlarda @Zai_org hakkında daha çok yazıyorum ama yenilik hızları oldukça dikkat çekici. Ve işte yine buradayız.... Ölçeklendirme yasalarını takip ediyorsanız, ham parametre sayısının mimari verimlilik ve veri kalitesine yenik düşmeye başladığını biliyorsunuzdur. @Zai_org GLM-5 bu geçişte bir ustalık sınıfıdır. Bir token başına sadece 40B parametreyi aktive eden 744B Uzmanlar Karışıklığı (MoE) bir canavarla ilgileniyoruz. Önemli olduğu yerde zayıf, olması gereken yerde ise devasa bir yerde. @layerlens_ai GLM-5'i aktif olarak değerlendiriyoruz ve sonuçları kendiniz değerlendirebilirsiniz: Özerklik Mimarisi Buradaki öne çıkan yenilik, DeepSeek Sparse Attention (DSA) ile yeni "Slime" RL Framework'ün birleşmesi. Eski paradigmada RLHF, modelleri "daha güzel" hale getirmekle ilgiliydi. GLM-5'te, Pekiştirme Öğrenme, düşünme ve yapma arasındaki boşluğu kapatmak için kullanılır. Bu asenkron RL yığını, modelin karmaşık, çok adımlı mühendislik görevleriyle "oynamasına" olanak tanır; başarısızlıktan bir kıdemli mühendisin PR sürecinde çalışmasını taklit eder şekilde öğrenir. Sadece bir sonraki tokenı tahmin etmek değil; Bir sonraki çözümü tahmin etmek. "Nesil Sıçraması"nın Kıyaslaması LayerLens'teki gösterge paneli sadece bir sayı listesi değil; Yüksek boyutlu akıl yürütme haritası. İşte bu yayını tanımlayan temel metrikler: İnsanlığın Son Sınavı (HLE) [Puan: 50.4]: "Final" akademik kısas noktası olarak tasarlanmış HLE, uzmanlar tarafından incelenmiş ve kasıtlı olarak "Google-dan doğrulu" sorulardan oluşur. 50.4 derecesinde, GLM-5 sadece gerçekleri hatırlamıyor; araç destekli sentezde Claude 4.5 Opus (43.4) ve GPT-5.2 (45.5)'yi geride bırakıyor. SWE-bench Doğrulandı [Puan: %77,8]: Bu, gerçek dünya yazılım mühendisliği için altın standarttır. Model, bir repo taramalı, bir hatayı yeniden üretmeli ve işlevsel bir pull request göndermelidir. GLM-5 şimdi dünyanın en güçlü tescilli sistemleriyle çarpışıyor. BrowseComp (Bağlam Yönetimi ile) [Puan: 75.9]: "Bağlamsal ajans" testi. Bir modelin canlı web sitelerinde gezinme ve uzun etkileşim geçmişleri boyunca hafıza tutma yeteneğini ölçür. GLM-5'in puanı lider konumda ve GPT-5.2'yi (65.8) geride bırakıyor. Vending Bench 2 [Sıralama #1]: Sürdürülebilir planlama ve operasyonel karar alma süreçlerini ölçen bir yıl süren bir iş simülasyonu. GLM-5, tüm açık kaynak modeller arasında en yüksek değer olan 4.432 dolarlık nihai hesap bakiyesiyle tamamladı ve binlerce tur boyunca tutarlı bir strateji sürdürebileceğini kanıtladı. τ²-Bench [Puan: 89.7]: Karmaşık çok adımlı ajan senaryolarını test eden GLM-5, Claude 4.5 Opus'u (91.6) etkili bir şekilde eşleştirdi ve GPT-5.2'yi (85.5) aşarak bir sohbet botu yerine ajanik sistem olarak konumunu pekiştirdi. Donanım Egemenliği Eğitim hikayesinde güzel bir ironi var: GLM-5 tamamen Huawei Ascend altyapısı üzerine eğitilmişti. Bu, zekanın substrattan bağımsız olduğunu hatırlatır. Sınıra ulaşmak için belirli bir silikon markasına ihtiyacınız yok; doğru mimari sezgiye ve yüksek kaliteli jetonlar dağına ihtiyacınız var—tam olarak 28,5T. Neden Bu Önemli...

En İyiler

Sıralama

Takip Listesi