🤔 Baidu ERNIE 5.0 est là — à quel point est-il vraiment bon ? Une critique largement lue du contributeur Zhihu toyama nao offre des analyses claires. Baidu a pris du retard sur OpenAI de 3 à 6 mois avec des versions correspondantes. Après GPT-5, ERNIE 5.0 est arrivé comme prévu — et contrairement à la version précipitée 4.5, il semble enfin être un modèle domestique de premier ordre solide. Les performances augmentent d'environ 80 % par rapport à X1.1, correspondant à peu près à MiniMax M2. Les données d'entraînement semblent reconstruites : les résultats sont beaucoup plus propres et plus cohérents (Fig 1). 👇 Voici la comparaison distillée : ✅ Où ERNIE 5.0 s'améliore • Suivi des instructions : Scores élevés et même des pics de premier ordre — mais avec des échecs étranges en bas de gamme (par exemple, des formats de date incohérents à travers les passes). • Calcul de base : Fiable pour les mathématiques de niveau K12 ; plus stable que X1.1, bien que toujours plus faible que M2 sur des tâches complexes. • Sortie beaucoup plus propre : X1.1 souffrait de données distillées bruyantes et de traductions maladroites. ERNIE 5.0 corrige largement cela : chaînes de pensée plus claires, réponses finales plus propres, meilleure lisibilité. 🙋 Où il a encore des difficultés • Taux d'hallucination élevé : Trop de réponses confiantes mais incorrectes sur la récupération de symboles mathématiques, le brouillage de caractères et les tâches à long contexte — plus proche d'une performance de raisonnement de second ordre. • Faible perspicacité : Échoue à repérer des motifs sous-jacents (#46 motif de lettres, #32 raisonnement calendaire), souvent en forçant au lieu d'abstraire. • Boucles infinies occasionnelles : Rares (<3 %) mais surprenantes, étant donné qu'elles avaient disparu dans les modèles domestiques récents. • Faible capacité multi-tour : Oublie souvent les règles ou les tours précédents avant le tour 7 ; les boucles se déclenchent plus facilement. 💬 Le Verdict L'ère des trillions de paramètres en Chine n'a même pas 3 mois, et Baidu a déjà sauté à un modèle de 2T. Pourtant, comparé à Kimi K2 Thinking, ERNIE 5.0 semble un peu "gonflé" — grand, capable, mais n'utilisant pas pleinement son poids. Cependant, cela pourrait être le signal tant attendu du retour de @Baidu_Inc — un rappel que Baidu a l'intention de rester dans la course aux LLM. 📖 Évaluation complète : 🔗 Benchmark : #ERNIE5 #Baidu #AI #LLM #ChinaAI