DApp Store | Centrum Web3 pro události a hry

Populární témata

V poslední době o @Zai_org píšu čím dál víc, ale jejich tempo inovací je jako by bylo pozoruhodné. A tady jsme zase.... Pokud jste sledovali zákony škálování, víte, že počet surových parametrů začíná ustupovat efektivitě architektury a kvalitě dat. @Zai_org GLM-5 je mistrovskou ukázkou tohoto přechodu. Díváme se na 744B Mixture-of-Experts (MoE) bestii, která aktivuje pouze 40B parametrů na token. Je to štíhlé tam, kde je to důležité, a masivní tam, kde je potřeba. Ve @layerlens_ai aktivně hodnotíme GLM-5 a výsledky si můžete zjistit sami: Architektura autonomie Výraznou inovací zde je DeepSeek Sparse Attention (DSA) v kombinaci s novým RL frameworkem "Slime". Ve starém paradigmatu bylo RLHF o tom, aby modely byly "hezčí". V GLM-5 se posilované učení používá k překlenutí propasti mezi myšlením a jednáním. Tento asynchronní RL stack umožňuje modelu "hrát" si s komplexními, vícestupňovými inženýrskými úkoly a učit se z neúspěchů způsobem, který napodobuje zkušeného inženýra, který se snaží projít PR. Nejde jen o předpovídání dalšího žetonu; Předpovídá další řešení. Benchmarking "generačního skoku" Dashboard na LayerLens není jen seznam čísel; Je to mapa vysokorozměrného uvažování. Zde jsou základní metriky, které definují toto vydání: Poslední zkouška lidstva (HLE) [Skóre: 50,4]: Navržena jako "finální" akademický benchmark, HLE se skládá z otázek ověřených odborníky, které jsou záměrně "odolné vůči Googlu". Na 50,4 GLM-5 nepřipomíná jen fakta; překonává Claude 4.5 Opus (43.4) a GPT-5.2 (45.5) v nástrojem podporované syntéze. SWE-bench ověřeno [Skóre: 77,8%]: Toto je zlatý standard pro skutečné softwarové inženýrství. Model musí procházet repozitář, reprodukovat chybu a odeslat funkční pull request. GLM-5 nyní bojuje s nejvýkonnějšími proprietárními systémy na světě. BrowseComp (s Context Management) [Skóre: 75,9]: Test "kontextuální agentury." Měří schopnost modelu orientovat se v živých webových stránkách a udržovat paměť v rámci rozsáhlých interakčních historií. Skóre GLM-5 vede skupinu, překonávají GPT-5.2 (65.8). Vending Bench 2 [Hodnoceno #1]: Roční obchodní simulace měřící trvalé plánování a provozní rozhodování. GLM-5 zakončil s konečným zůstatkem účtu 4 432 dolarů – nejvyšším ze všech open-source modelů – což dokazuje, že dokáže udržet koherentní strategii po tisíce tahů. τ²-Bench [Skóre: 89,7]: Při testování složitých vícestupňových scénářů agentů GLM-5 efektivně dosáhl Claude 4.5 Opus (91.6) a překonal GPT-5.2 (85.5), čímž posílil svou pozici agentického systému, nikoli chatbota. Hardwarová suverenita V příběhu výcviku je krásná ironie: GLM-5 byl trénován výhradně na infrafraturu Huawei Ascend. Připomíná to, že inteligence je nezávislá na substrátu. K dosažení hranic nepotřebujete konkrétní značku křemíku; potřebujete správnou architektonickou intuici a hromadu vysoce kvalitních žetonů – přesně 28,5T. Proč je to důležité...

Top

Hodnocení

Oblíbené