🤔 Baidu ERNIE 5.0 來了——它真的有多好? 來自知乎貢獻者 toyama nao 的廣泛閱讀評論提供了清晰的分析。 Baidu 在版本匹配的發布上落後於 OpenAI 3-6 個月。在 GPT-5 之後,ERNIE 5.0 準時到來——與匆忙推出的 4.5 不同,它終於看起來像是一個穩固的一級國產模型。 性能提升約 80% 超過 X1.1,大致與 MiniMax M2 相當。訓練數據似乎重新構建:輸出更乾淨且更連貫(圖 1)。 👇 這裡是精煉的比較: ✅ ERNIE 5.0 的改進之處 • 指令遵循:高分甚至達到頂級峰值——但有奇怪的低端失誤(例如,通過中日期格式不一致)。 • 基本計算:對 K12 級別的數學可靠;比 X1.1 更穩定,但在複雜任務上仍然弱於 M2。 • 輸出更乾淨:X1.1 受到噪音提煉數據和尷尬翻譯的困擾。ERNIE 5.0 在很大程度上修復了這一點:思路更清晰,最終答案更乾淨,可讀性更好。 🙋 仍然存在的挑戰 • 高幻覺率:在數學符號恢復、字符混淆和長上下文任務上,出現了太多自信但錯誤的答案——更接近二級推理性能。 • 低洞察力:未能識別潛在模式(#46 字母模式,#32 日曆推理),經常是強行解決而不是抽象化。 • 偶爾出現無限循環:雖然罕見(<3%),但令人驚訝,因為它們在最近的國產模型中已經消失。 • 多輪能力弱:經常在第 7 輪之前忘記規則或之前的回合;觸發循環的情況更容易。 💬 評價 中國的萬億參數時代剛剛過去 3 個月,而 Baidu 已經跳到了 2T 模型。 然而,與 Kimi K2 Thinking 相比,ERNIE 5.0 感覺有點 "膨脹"——大而有能力,但未完全利用其重量。 不過,這可能是 @Baidu_Inc 長期待望的回歸信號——提醒人們 Baidu 打算繼續參加 LLM 競賽。 📖 完整評估: 🔗 基準: #ERNIE5 #Baidu #AI #LLM #ChinaAI