Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤔 Baidu ERNIE 5.0 ya está aquí, ¿qué tan bueno es realmente?
Una reseña ampliamente leída del colaborador de Zhihu, toyama nao, ofrece desgloses claros.
Baidu ha estado detrás de OpenAI por 3-6 meses con lanzamientos de versiones coincidentes. Después de GPT-5, ERNIE 5.0 llegó en el momento oportuno y, a diferencia del apresurado 4.5, finalmente parece un modelo doméstico sólido de primer nivel.
El rendimiento salta ~80% sobre X1.1, igualando aproximadamente a MiniMax M2. Los datos de entrenamiento parecen reconstruidos: los resultados son mucho más limpios y coherentes (Fig. 1).
👇 Aquí está la comparación destilada:
✅Donde ERNIE 5.0 mejora
• Seguimiento de instrucciones: puntajes altos e incluso picos de primer nivel, pero con fallas extrañas de bajo nivel (por ejemplo, formatos de fecha inconsistentes en todos los pases).
• Computación básica: confiable para matemáticas de nivel K12; más estable que X1.1, aunque aún más débil que M2 en tareas complejas.
• Salida mucho más limpia: X1.1 sufría de datos destilados ruidosos y traducciones incómodas. ERNIE 5.0 soluciona esto en gran medida: cadenas de pensamiento más claras, respuestas finales más limpias, mejor legibilidad.
🙋 Donde todavía tiene dificultades
• Alta tasa de alucinaciones: demasiadas respuestas seguras pero incorrectas en la recuperación de símbolos matemáticos, la codificación de caracteres y las tareas de contexto largo, más cercanas al rendimiento de razonamiento de segundo nivel.
• Baja perspicacia: No detecta patrones subyacentes (patrón de letras # 46, razonamiento calendárico # 32), a menudo forzando en lugar de abstraer.
• Bucles infinitos ocasionales: Raros (<3%) pero sorprendentes, dado que habían desaparecido en los modelos domésticos recientes.
• Habilidad débil en varios turnos: A menudo olvida las reglas o los turnos anteriores antes de la ronda 7; se activan más fácilmente.
💬El veredicto
La era de los billones de parámetros de China tiene apenas 3 meses, y Baidu ya saltó a un modelo 2T.
Sin embargo, en comparación con Kimi K2 Thinking, ERNIE 5.0 se siente un poco "hinchado": grande, capaz, pero no completamente usando su peso.
Aún así, esta puede ser la tan esperada señal de regreso de @Baidu_Inc, un recordatorio de que Baidu tiene la intención de permanecer en la carrera de LLM.
📖 Evaluación completa:
🔗 Punto de referencia:
#ERNIE5 #Baidu #AI #LLM #ChinaAI

Populares
Ranking
Favoritas

