🔥 ByteDance щойно випустила Doubao-Seed-1.8 (модель агента) — і ось детальна оцінка від учасника Zhihu Toyama 👀 nao 🔮 Коротко; DR: Відкриття очей посеред хаосу. Протягом 2025 року моделі команди Seed 1.5 і 1.6 міцно залишалися у топовому дивізіоні Китаю та другому світовому рівнях. Починаючи з версії 1.5, Seed подвоїла акцент на уніфікованому мультимодальному моделюванні, що є відносно рідкісною ставкою серед вітчизняних моделей. Водночас Seed-1.6 зазнав жорсткої критики: масштабний RL підвищив результати бенчмарків, але реальне узагальнення відставало від Qwen3 і було далеким від світових лідерів. Коли GLM і MiniMax почали використовувати агентські застосунки, слабкі агентські здібності Doubao змушували його боротися. Однак повернення Seed-1.8 до першого рівня не стало несподіванкою — сюрпризом є ефективність (рис. 1)! !️ Середня версія досягає такого ж інтелекту, як Seed-1.6, використовує токени на 5K замість 15K, за початковою ціною ¥2, що робить її надзвичайно економічною — шлях, схожий на DeepSeek. Високорівневі моделі масштабуються з більшими бюджетами і помітно близькі до топових американських моделей. З сильним баченням і мультимодальним розумінням, а також генерацією зображень/відео, що лише на півкроку відстає — справедливо назвати Seed «міні-Близнюками». Де це покращується 🚀 1️⃣ Логіка довгого ланцюга: Seed-1.8 зберігає фокус на значно довшому CoT, ретельно перевіряючи гілки для отримання правильних рішень. Її сила більше походить від постійної уваги та вичерпного пошуку, ніж із глибокої людської абстракції. Gemini 3 Pro та GPT-5.2 досі отримують вищі бали з ~60% токенів — ознака сильнішого сирого інтелекту. 2️⃣ Вилучення інформації: Висока точність, але неефективна. Seed-1.8 зазвичай переписує та анотує повний вихідний текст під час CoT. Просте завдання на видобуток на 10 тисяч може коштувати 2× токенів, а точність різко падає при низьких раціональних бюджетах. Без увімкненого мислення екстракт майже непридатний. (Gemini 3 Pro виконує те саме завдання у ~4K токенах.) 3️⃣ Кодування: Історично слабке місце, але воно покращується. Seed-1.8 успадковує переваги від останньої моделі Code і придатний для кодування 0→1 «віб». Все ще далеко від топових інженерних моделей — особливо в системному мисленні. Де він досі не ⚠️ дотягує 1️⃣ Багатоповоротна когерентність: Кращий за Seed-1.6, тепер «практично придатний», але все ще має труднощі з послідовним відстеженням цілей у довгих розмовах. Після ~10+ ходів мислення змінюється. 2️⃣ Просторовий інтелект: Обмежені тренувальні шоу. Продуктивність у 2D/3D просторовому мисленні майже не покращується порівняно з 1.6. 🧠 Фінальний дубль Об'єднана мультимодальна стратегія Gemini вже створила міцний рів. Більшість китайських моделей досі перебувають у текстовій конкуренції. Раннє рішення ByteDance прагнути до єдиної мультимодальності було правильним — але історичний борг має велике значення....