🔥 ByteDance только что выпустила Doubao-Seed-1.8 (модель Agent) — и вот подробная оценка от участника Zhihu toyama nao 👀 🔮 Кратко: Открытие глаза посреди хаоса. На протяжении 2025 года модели Seed 1.5 и 1.6 уверенно оставались в топе Китая и на втором уровне в мире. С момента 1.5 Seed удвоила усилия по унифицированному мультимодальному моделированию, что является относительно редким выбором среди отечественных моделей. Тем не менее, Seed-1.6 подверглась жесткой критике: крупномасштабное RL повысило бенчмарк-оценки, но обобщение в реальном мире отставало от Qwen3 и было далеко от мировых лидеров. Поскольку GLM и MiniMax сосредоточились на приложениях Agent, слабые способности агента Doubao оставили его в затруднительном положении. Тем не менее, возвращение Seed-1.8 в первую лигу не стало сюрпризом — сюрпризом стала эффективность (Рис. 1)‼️ Средняя версия достигает того же уровня интеллекта, что и Seed-1.6, используя 5K токенов вместо 15K, по цене входа ¥2, что делает ее чрезвычайно экономически эффективной — путь, напоминающий DeepSeek. Высший уровень масштабирует рассуждения с большими бюджетами и приближается к топовым моделям США. С сильным зрением и мультимодальным пониманием, плюс генерация изображений/видео всего на полшага позади — справедливо назвать Seed "мини-Gemini." Где она улучшилась 🚀 1️⃣ Долгосрочное рассуждение: Seed-1.8 сохраняет фокус на гораздо более длинных CoT, тщательно проверяя ветви, чтобы достичь правильных решений. Ее сила больше заключается в устойчивом внимании и исчерпывающем поиске, чем в глубоком человеческом абстрагировании. Gemini 3 Pro и GPT-5.2 все еще достигают более высоких оценок с ~60% токенов — признак более сильного сырого интеллекта. 2️⃣ Извлечение информации: Высокая точность, но неэффективно. Seed-1.8 склонна повторять и аннотировать полный исходный текст во время CoT. Простая задача извлечения на 10K может стоить в 2 раза больше токенов, и точность резко падает при более низких бюджетах на рассуждение. Без включенного рассуждения извлечение почти невозможно. (Gemini 3 Pro справляется с той же задачей за ~4K токенов.) 3️⃣ Кодирование: Исторически слабое место, но улучшается. Seed-1.8 наследует достижения от недавней модели Code и пригодна для "вибрационного кодирования" 0→1. Все еще далеко от топовых инженерных моделей — особенно в системном мышлении. Где она все еще отстает ⚠️ 1️⃣ Многоповоротная согласованность: Лучше, чем Seed-1.6, теперь "в основном пригодна", но все еще испытывает трудности с последовательным отслеживанием целей в длинных разговорах. После ~10+ поворотов рассуждение уходит в сторону. 2️⃣ Пространственный интеллект: Ограниченное обучение показывает. Производительность в 2D/3D пространственном рассуждении едва улучшается по сравнению с 1.6. 🧠 Итог Унифицированная мультимодальная стратегия Gemini уже сформировала сильный барьер. Большинство китайских моделей все еще застряли в текстоцентричной конкуренции. Раннее решение ByteDance преследовать унифицированную мультимодальность было правильным — но исторический долг тяжело давит....