Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance har precis släppt Doubao-Seed-1.8 (Agentmodell) — och här är en djupgående utvärdering från Zhihu-bidragsgivaren toyama nao 👀
🔮 TL; DR: En ögonöppnande mitt i kaoset.
Under hela 2025 höll sig Seed-teamets modeller 1,5 och 1,6 stadigt i Kinas högsta nivå och den globala andraklassen. Sedan 1.5 har Seed satsat på enhetlig multimodal modellering, en relativt sällsynt satsning bland inhemska modeller.
Med det sagt kritiserades Seed-1.6 hårt: storskalig RL ökade benchmark-poängen, men verkliga generaliseringar låg efter Qwen3 och var långt ifrån globala ledare. När GLM och MiniMax satsade på agentapplikationer, gjorde Doubaos svaga agentförmågor att den fick det svårt.
Men Seed-1.8:s återkomst till första nivån var ingen överraskning — överraskningen är effektiviteten (Figur 1)! !️
Den medelstora versionen når samma intelligens som Seed-1.6 genom att använda 5K-tokens istället för 15K, till ett inträdespris på ¥2, vilket gör den extremt kostnadseffektiv – en väg som påminner om DeepSeek.
Den höga nivån skalar med större budgetar och kommer märkbart nära toppmodellerna i USA. Med stark vision och multimodal förståelse, plus bild-/videogenerering bara ett halvt steg efter – är det rimligt att kalla Seed en "mini-Gemini."
Där det förbättras 🚀
1️⃣ Långkeddig resonemang:
Seed-1.8 behåller fokus över mycket längre CoT och validerar noggrant grenar för att nå korrekta lösningar.
Dess styrka kommer mer från ihållande uppmärksamhet och uttömmande sökande än från djup människolik abstraktion. Gemini 3 Pro och GPT-5.2 uppnår fortfarande högre poäng med ~60 % av tokens — ett tecken på starkare rå intelligens.
2️⃣ Informationsutvinning:
Hög noggrannhet, men ineffektivt. Seed-1.8 tenderar att omformulera och annotera fullständig källtext under CoT. En enkel 10K-extraktionsuppgift kan kosta 2× tokens, och noggrannheten sjunker kraftigt vid lägre resonemangsbudgetar. Utan resonemang aktiverat är extraktion nästan oanvändbar. (Gemini 3 Pro hanterar samma uppgift i ~4K-tokens.)
3️⃣ Kodning:
Historiskt sett en svag punkt, men det blir bättre. Seed-1.8 ärver vinster från den senaste Code-modellen och kan användas för 0→1 "vibe-kodning". Fortfarande långt ifrån toppmodeller för ingenjörskonst – särskilt i systemnivåtänkande.
Där det fortfarande brister ⚠️
1️⃣ Flervarvs koherens:
Bättre än Seed-1.6, nu "i princip användbar", men har fortfarande svårt att konsekvent följa mål över långa konversationer. Efter ~10+ svängar driftar resonemanget.
2️⃣ Rumslig intelligens:
Begränsade utbildningsprogram. Prestandan på 2D/3D rumslig logik förbättras knappt över 1,6.
🧠 Slutgiltigt tagning
Gemini's enhetliga multimodala strategi har redan bildat en stark vallgrav. De flesta kinesiska modeller är fortfarande fast i textcentrerad konkurrens. ByteDances tidiga beslut att satsa på enhetlig multimodalitet var rätt – men den historiska skulden väger tungt....

Topp
Rankning
Favoriter
