トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
最近は@Zai_orgについて書くことが増えていますが、彼らの革新のスピードは驚くべきものに感じられます。
そしてまたここにいる......
スケーリングの法則に従っていれば、生のパラメータ数がアーキテクチャ効率やデータ品質に取って代わり始めていることはご存知でしょう。GLM-5@Zai_orgこの移行におけるマスタークラスです。744BのMixture-of-Experts(MoE)モンスターで、トークンごとに40Bパラメータしか発動しません。重要な部分はスリムで、必要な部分は巨大です。
@layerlens_aiではGLM-5を積極的に評価しており、結果はご自身で確認できます。
自治の建築
ここでの際立った革新は、DeepSeek Sparse Attention(DSA)と新しい「Slime」RLフレームワークの組み合わせです。
従来のパラダイムでは、RLHFはモデルを「より良く」することに重点が置かれていました。GLM-5では、強化学習が思考と行動のギャップを埋めるために用いられます。この非同期強化学習スタックにより、モデルは複雑で多段階のエンジニアリングタスクに「遊び」し、シニアエンジニアがPRを苦しめるように失敗から学習します。単に次のトークンを予測するだけではありません。次の解決策を予測することです。
「世代の飛躍」のベンチマーク
LayerLensのダッシュボードは単なる数字のリストではありません。それは高次元推論の地図です。以下は、このリリースを定義するコア指標です:
Humanity's Last Exam(HLE)[スコア:50.4]:「最終的な」学術的基準として設計されたHLEは、専門家が検証した問題で構成されており、意図的に「Google対応」を意図しています。50.4のGLM-5は単に事実を思い出しているだけではありません。ツール拡張合成において、Claude 4.5 Opus(43.4)やGPT-5.2(45.5)を理性で上回っています。
SWE-bench 検証済み【スコア:77.8%)】:これは実世界のソフトウェアエンジニアリングにおけるゴールドスタンダードです。モデルはリポジトリを閲覧し、バグを再現し、関数型プルリクエストを提出しなければなりません。GLM-5は現在、世界で最も強力な独自システムと激しく戦っています。
BrowseComp(コンテキスト管理付き)[スコア:75.9]:「コンテキストエージェンシー」のテスト。これはモデルがライブウェブサイトをナビゲートし、長時間のインタラクション履歴を記憶する能力を測定します。GLM-5のスコアはトップで、GPT-5.2(65.8)を上回っています。
Vending Bench 2 [ランク #1]:持続的な計画と運営意思決定を測定する1年間のビジネスシミュレーション。GLM-5は最終口座残高4,432ドルで終了し、全オープンソースモデルの中で最高となり、数千ターンにわたって一貫した戦略を維持できることを証明しました。
τ²-Bench [スコア:89.7]:複雑な多段階エージェントシナリオをテストし、GLM-5はClaude 4.5 Opus(91.6)とほぼ一致し、GPT-5.2(85.5)を上回り、チャットボットではなくエージェントシステムとしての地位を強化しました。
ハードウェア主権
訓練の話には美しい皮肉があります。GLM-5は完全にファーウェイ・アセンドのインフラ上で訓練されていました。知能は基質に依存しないことを思い出させてくれます。フロンティアに到達するのに特定のシリコンブランドは必要ありません。適切なアーキテクチャの直感と、高品質なトークンの山が必要です。正確には28.5Tです。
なぜこれが重要なのか...

トップ
ランキング
お気に入り
