Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich finde mich in letzter Zeit immer mehr dabei, über @Zai_org zu schreiben, aber ihr Innovationstempo ist bemerkenswert.
Und hier sind wir wieder....
Wenn du die Skalierungsgesetze verfolgt hast, weißt du, dass die rohe Parameteranzahl anfängt, der architektonischen Effizienz und der Datenqualität nachzugeben. @Zai_org GLM-5 ist ein Meisterwerk in diesem Übergang. Wir betrachten ein 744B Mixture-of-Experts (MoE) Ungeheuer, das nur 40B Parameter pro Token aktiviert. Es ist schlank, wo es darauf ankommt, und massiv, wo es nötig ist.
Bei @layerlens_ai haben wir GLM-5 aktiv evaluiert und du kannst die Ergebnisse selbst sehen:
Die Architektur der Autonomie
Die herausragende Innovation hier ist die DeepSeek Sparse Attention (DSA) kombiniert mit dem neuen "Slime" RL Framework.
Im alten Paradigma ging es bei RLHF darum, Modelle "freundlicher" zu machen. In GLM-5 wird Reinforcement Learning verwendet, um die Lücke zwischen Denken und Handeln zu überbrücken. Dieser asynchrone RL-Stack ermöglicht es dem Modell, mit komplexen, mehrstufigen Ingenieuraufgaben "zu spielen" und aus Misserfolgen zu lernen, auf eine Weise, die einen erfahrenen Ingenieur nachahmt, der durch einen PR arbeitet. Es geht nicht nur darum, das nächste Token vorherzusagen; es geht darum, die nächste Lösung vorherzusagen.
Benchmarking des "Generational Leap"
Das Dashboard auf LayerLens ist nicht nur eine Liste von Zahlen; es ist eine Karte des hochdimensionalen Denkens. Hier sind die Kernmetriken, die dieses Release definieren:
Die letzte Prüfung der Menschheit (HLE) [Punktzahl: 50,4]: Entworfen, um der "finale" akademische Benchmark zu sein, besteht HLE aus von Experten geprüften Fragen, die absichtlich "Google-proof" sind. Mit 50,4 erinnert sich GLM-5 nicht nur an Fakten; es übertrifft Claude 4.5 Opus (43,4) und GPT-5.2 (45,5) in werkzeugunterstützter Synthese.
SWE-bench Verifiziert [Punktzahl: 77,8%]: Dies ist der Goldstandard für reale Softwareentwicklung. Das Modell muss ein Repo durchsuchen, einen Fehler reproduzieren und einen funktionalen Pull-Request einreichen. GLM-5 liefert sich nun einen Schlagabtausch mit den leistungsstärksten proprietären Systemen der Welt.
BrowseComp (mit Kontextmanagement) [Punktzahl: 75,9]: Ein Test der "kontextuellen Handlungsfähigkeit." Er misst die Fähigkeit eines Modells, live Websites zu navigieren und über längere Interaktionshistorien hinweg Gedächtnis zu bewahren. GLM-5 führt das Feld an und übertrifft GPT-5.2 (65,8).
Vending Bench 2 [Rang #1]: Eine einjährige Geschäftssimulation, die nachhaltige Planung und operative Entscheidungsfindung misst. GLM-5 beendete mit einem Endguthaben von 4.432 $—dem höchsten unter allen Open-Source-Modellen—und beweist, dass es eine kohärente Strategie über Tausende von Zügen aufrechterhalten kann.
τ²-Bench [Punktzahl: 89,7]: Bei Tests komplexer mehrstufiger Agentenszenarien hat GLM-5 effektiv Claude 4.5 Opus (91,6) erreicht und GPT-5.2 (85,5) übertroffen, was seine Position als agentisches System und nicht als Chatbot verstärkt.
Die Hardware-Souveränität
Es gibt eine schöne Ironie in der Trainingsgeschichte: GLM-5 wurde vollständig auf Huawei Ascend-Infrastruktur trainiert. Es ist eine Erinnerung daran, dass Intelligenz substratunabhängig ist. Du brauchst keine bestimmte Marke von Silizium, um die Grenze zu erreichen; du brauchst das richtige architektonische Gespür und einen Berg von hochwertigen Tokens—28,5T, um genau zu sein.
Warum das wichtig ist...

Top
Ranking
Favoriten
