Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance acaba de lanzar Doubao-Seed-1.8 (modelo Agente) — y aquí tienes una evaluación en profundidad del colaborador de Zhihu toyama nao 👀
🔮 Resumen; DR: Una revelación en medio del caos.
Durante 2025, los modelos 1.5 y 1.6 del equipo Seed se mantuvieron firmemente en la élite china y en la segunda categoría global. Desde la versión 1.5, Seed ha redoblado la apuesta por el modelado multimodal unificado, una apuesta relativamente rara entre los modelos nacionales.
Dicho esto, Seed-1.6 fue duramente criticado: el RL a gran escala impulsó las puntuaciones de benchmark, pero la generalización en el mundo real quedó por detrás de Qwen3 y estuvo lejos de ser líder global. A medida que GLM y MiniMax se inclinaban hacia las aplicaciones de Agente, las débiles habilidades de Doubao le dejaban con dificultades.
Sin embargo, el regreso de la Seed-1.8 al primer nivel no fue una sorpresa — ¡la sorpresa es la eficiencia (Fig. 1)! !️
La versión media alcanza la misma inteligencia que Seed-1.6 usando 5K tokens en lugar de 15K, a un precio de entrada de ¥2, lo que la hace extremadamente rentable — un camino que recuerda a DeepSeek.
El segmento alto escala con presupuestos más altos y se acerca notablemente a los mejores modelos estadounidenses. Con una visión fuerte y un entendimiento multimodal, además de la generación de imágenes/vídeos apenas medio paso por detrás — es justo llamar a Seed un "mini-Géminis".
Donde mejora 🚀
1️⃣ Razonamiento de cadena larga:
Seed-1.8 mantiene el enfoque a lo largo de mucho más tiempo en CoT, validando cuidadosamente las ramas para alcanzar las soluciones correctas.
Su fortaleza proviene más de la atención sostenida y la búsqueda exhaustiva que de una abstracción profunda y humana. Gemini 3 Pro y GPT-5.2 siguen logrando puntuaciones más altas con un ~60% de los tokens, lo que indica una inteligencia bruta más fuerte.
2️⃣ Extracción de información:
Alta precisión, pero ineficiente. Seed-1.8 tiende a reformular y anotar el texto fuente completo durante CoT. Una simple tarea de extracción de 10K puede costar 2× tokens, y la precisión cae drásticamente con presupuestos de razonamiento bajos. Sin la razón activada, la extracción es casi inutilizable. (Gemini 3 Pro realiza la misma tarea en ~4K tokens.)
3️⃣ Codificación:
Históricamente es un punto débil, pero está mejorando. Seed-1.8 hereda las ganancias del modelo Code reciente y es utilizable para el "vibe code" 0→1. Aún lejos de los modelos de ingeniería de primer nivel — especialmente en el pensamiento a nivel de sistemas.
Donde aún no queda ⚠️
1️⃣ Coherencia en varios giros:
Mejor que Seed-1.6, ahora "básicamente utilizable", pero sigue teniendo dificultades para seguir objetivos de forma consistente en largas conversaciones. Después de ~10+ turnos, la razón se desvía.
2️⃣ Inteligencia espacial:
Programas de entrenamiento limitados. El rendimiento en razonamiento espacial 2D/3D apenas mejora respecto a la versión 1.6.
🧠 Toma final
La estrategia multimodal unificada de Géminis ya ha formado un fuerte foso. La mayoría de los modelos chinos siguen atrapados en una competencia centrada en el texto. La decisión inicial de ByteDance de buscar la multimodalidad unificada fue acertada, pero la deuda histórica pesa mucho....

Populares
Ranking
Favoritas
