トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤔 Baidu ERNIE 5.0 が登場しました — それは本当にどれほど優れているのでしょうか?
Zhihu の寄稿者である toyama nao による広く読まれているレビューには、明確な内訳が記載されています。
Baiduは、バージョンが一致したリリースでOpenAIに3〜6か月遅れをとっています。GPT-5 の後、ERNIE 5.0 が合図で登場し、急いでいた 4.5 とは異なり、ようやく堅実な国内第一層モデルのように見えます。
パフォーマンスは X1.1 よりも ~80% 向上し、MiniMax M2 とほぼ同等です。トレーニングデータは再構築されたようで、出力ははるかにクリーンで一貫性があります(図1)。
👇 抽出された比較は次のとおりです。
✅ERNIE 5.0が改善される場所
• 指示に従う: 高スコアとトップレベルのピークさえありますが、奇妙なローエンドの失敗 (たとえば、パス間で一貫性のない日付形式) があります。
• 基本的な計算: K12 レベルの数学に信頼性があります。X1.1 よりも安定していますが、複雑なタスクでは M2 よりも弱いです。
• はるかにクリーンな出力: X1.1 は、ノイズの多い蒸留データとぎこちない翻訳に悩まされていました。ERNIE 5.0 では、思考の連鎖がより明確になり、最終的な回答がすっきりし、読みやすさが向上しました。
🙋 まだ苦戦しているところ
• 高い幻覚率: 数学記号の回復、文字スクランブル、および長いコンテキストのタスクで、自信はあるが間違った答えが多すぎて、第 2 層の推論パフォーマンスに近い。
• 洞察力が低い: 根底にあるパターン (#46 文字パターン、#32 暦の推論) を見つけることができず、抽象化ではなく総当たり攻撃を行うことがよくあります。
• 時折の無限ループ: まれ (<3%) が、最近の国内モデルでは消えていることを考えると驚くべきことです。
• 弱いマルチターン能力: ラウンド 7 の前にルールや前のターンを忘れることがよくあります。ループがより簡単にトリガーされます。
💬評決
中国の1兆パラメータ時代はまだ3か月しか経っておらず、Baiduはすでに2Tモデルに飛び込んでいます。
しかし、Kimi K2 Thinking と比較すると、ERNIE 5.0 は少し「ふくらんでいる」ように感じられます - 大きくて有能ですが、その重量を十分に活用していません。
それでも、これは@Baidu_Incの待望のカムバックシグナルであり、BaiduがLLMレースにとどまるつもりであることを思い出させるものかもしれません。
📖 完全な評価:
🔗 ベンチマーク:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

トップ
ランキング
お気に入り

