🤔 Baidu ERNIE 5.0 burada — gerçekten ne kadar iyi? Zhihu'ya katkıda bulunan toyama nao'nun geniş çapta okunan bir incelemesi net dökümler sunuyor. Baidu, sürüm uyumlu sürümlerle OpenAI'yi 3-6 ay geride bıraktı. GPT-5'ten sonra ERNIE 5.0 hemen geldi ve aceleye getirilen 4.5'in aksine, sonunda sağlam bir birinci kademe yerli model gibi görünüyor. Performans, X1.1'e göre ~%80 artarak kabaca MiniMax M2 ile eşleşiyor. Eğitim verileri yeniden oluşturulmuş gibi görünüyor: çıktılar çok daha temiz ve daha tutarlı (Şekil 1). 👇 İşte damıtılmış karşılaştırma: ✅ERNIE 5.0'ın Daha İyi Olduğu Yer • Talimat takibi: Yüksek puanlar ve hatta en üst düzey zirveler - ancak garip düşük uç arızaları (örneğin, geçişler arasında tutarsız tarih formatları). • Temel hesaplama: K12 düzeyinde matematik için güvenilir; X1.1'den daha kararlı, ancak yine de karmaşık görevlerde M2'den daha zayıf. • Çok daha temiz çıktı: X1.1, gürültülü damıtılmış verilerden ve garip çevirilerden muzdaripti. ERNIE 5.0 bunu büyük ölçüde düzeltir: daha net düşünce zincirleri, daha temiz nihai cevaplar, daha iyi okunabilirlik. 🙋 Hala Mücadele Ettiği Yer • Yüksek halüsinasyon oranı: Matematik sembolü kurtarma, karakter karıştırma ve uzun bağlamlı görevlerde çok fazla kendinden emin ama yanlış cevap - ikinci kademe akıl yürütme performansına daha yakın. • Düşük içgörü: Altta yatan kalıpları tespit edemez (#46 harf kalıbı, #32 takvimsel akıl yürütme), genellikle soyutlama yerine kaba kuvvet. • Ara sıra sonsuz döngüler: Nadir (%<3) ancak son yerli modellerde ortadan kayboldukları göz önüne alındığında şaşırtıcı. • Zayıf çoklu tur yeteneği: Genellikle 7. turdan önce kuralları veya önceki turları unutur; döngüler daha kolay tetiklenir. 💬Karar Çin'in trilyon parametreli dönemi henüz 3 aylık ve Baidu şimdiden 2T modeline geçti. Yine de Kimi K2 Thinking ile karşılaştırıldığında, ERNIE 5.0 biraz "kabarık" hissettiriyor - büyük, yetenekli, ancak ağırlığını tam olarak kullanmıyor. Yine de bu, @Baidu_Inc'in uzun zamandır beklenen geri dönüş sinyali olabilir - Baidu'nun LLM yarışında kalmayı planladığının bir hatırlatıcısı. 📖 Tam değerlendirme: 🔗 Kriter: #ERNIE5 #Baidu #AI #LLM #ChinaAI