Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
V poslední době o @Zai_org píšu čím dál víc, ale jejich tempo inovací je jako by bylo pozoruhodné.
A tady jsme zase....
Pokud jste sledovali zákony škálování, víte, že počet surových parametrů začíná ustupovat efektivitě architektury a kvalitě dat. @Zai_org GLM-5 je mistrovskou ukázkou tohoto přechodu. Díváme se na 744B Mixture-of-Experts (MoE) bestii, která aktivuje pouze 40B parametrů na token. Je to štíhlé tam, kde je to důležité, a masivní tam, kde je potřeba.
Ve @layerlens_ai aktivně hodnotíme GLM-5 a výsledky si můžete zjistit sami:
Architektura autonomie
Výraznou inovací zde je DeepSeek Sparse Attention (DSA) v kombinaci s novým RL frameworkem "Slime".
Ve starém paradigmatu bylo RLHF o tom, aby modely byly "hezčí". V GLM-5 se posilované učení používá k překlenutí propasti mezi myšlením a jednáním. Tento asynchronní RL stack umožňuje modelu "hrát" si s komplexními, vícestupňovými inženýrskými úkoly a učit se z neúspěchů způsobem, který napodobuje zkušeného inženýra, který se snaží projít PR. Nejde jen o předpovídání dalšího žetonu; Předpovídá další řešení.
Benchmarking "generačního skoku"
Dashboard na LayerLens není jen seznam čísel; Je to mapa vysokorozměrného uvažování. Zde jsou základní metriky, které definují toto vydání:
Poslední zkouška lidstva (HLE) [Skóre: 50,4]: Navržena jako "finální" akademický benchmark, HLE se skládá z otázek ověřených odborníky, které jsou záměrně "odolné vůči Googlu". Na 50,4 GLM-5 nepřipomíná jen fakta; překonává Claude 4.5 Opus (43.4) a GPT-5.2 (45.5) v nástrojem podporované syntéze.
SWE-bench ověřeno [Skóre: 77,8%]: Toto je zlatý standard pro skutečné softwarové inženýrství. Model musí procházet repozitář, reprodukovat chybu a odeslat funkční pull request. GLM-5 nyní bojuje s nejvýkonnějšími proprietárními systémy na světě.
BrowseComp (s Context Management) [Skóre: 75,9]: Test "kontextuální agentury." Měří schopnost modelu orientovat se v živých webových stránkách a udržovat paměť v rámci rozsáhlých interakčních historií. Skóre GLM-5 vede skupinu, překonávají GPT-5.2 (65.8).
Vending Bench 2 [Hodnoceno #1]: Roční obchodní simulace měřící trvalé plánování a provozní rozhodování. GLM-5 zakončil s konečným zůstatkem účtu 4 432 dolarů – nejvyšším ze všech open-source modelů – což dokazuje, že dokáže udržet koherentní strategii po tisíce tahů.
τ²-Bench [Skóre: 89,7]: Při testování složitých vícestupňových scénářů agentů GLM-5 efektivně dosáhl Claude 4.5 Opus (91.6) a překonal GPT-5.2 (85.5), čímž posílil svou pozici agentického systému, nikoli chatbota.
Hardwarová suverenita
V příběhu výcviku je krásná ironie: GLM-5 byl trénován výhradně na infrafraturu Huawei Ascend. Připomíná to, že inteligence je nezávislá na substrátu. K dosažení hranic nepotřebujete konkrétní značku křemíku; potřebujete správnou architektonickou intuici a hromadu vysoce kvalitních žetonů – přesně 28,5T.
Proč je to důležité...

Top
Hodnocení
Oblíbené
