Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance właśnie wydał Doubao-Seed-1.8 (model Agent) — oto szczegółowa ocena od współpracownika Zhihu, toyama nao 👀
🔮 TL;DR: Otwierające oczy w środku chaosu.
W ciągu 2025 roku modele 1.5 i 1.6 zespołu Seed utrzymywały się w czołówce Chin i w drugiej lidze globalnej. Od wersji 1.5, Seed postawił na zjednoczone modelowanie multimodalne, co jest stosunkowo rzadkim zakładem wśród krajowych modeli.
Jednakże, Seed-1.6 był mocno krytykowany: duża skala RL zwiększyła wyniki benchmarków, ale generalizacja w rzeczywistym świecie pozostawała w tyle za Qwen3 i była daleka od globalnych liderów. Gdy GLM i MiniMax skupiły się na zastosowaniach Agent, słabe zdolności agenta Doubao sprawiły, że miał trudności.
Jednak powrót Seed-1.8 do pierwszej ligi nie był zaskoczeniem — zaskoczeniem jest efektywność (Rys. 1)‼️
Wersja średnia osiąga tę samą inteligencję co Seed-1.6 używając 5K tokenów zamiast 15K, przy cenie wejściowej ¥2, co czyni ją niezwykle opłacalną — ścieżka przypominająca DeepSeek.
Wysoka liga zwiększa rozumowanie przy większych budżetach i zbliża się do najlepszych modeli z USA. Z silnym zrozumieniem wizji i multimodalnym, plus generowaniem obrazów/wideo tylko o krok w tyle — można sprawiedliwie nazwać Seed "mini-Gemini."
Gdzie się poprawia 🚀
1️⃣ Rozumowanie długich łańcuchów:
Seed-1.8 utrzymuje koncentrację przez znacznie dłuższe CoT, starannie weryfikując gałęzie, aby osiągnąć poprawne rozwiązania.
Jego siła pochodzi bardziej z utrzymanej uwagi i wyczerpującego przeszukiwania niż głębokiej abstrakcji przypominającej ludzką. Gemini 3 Pro i GPT-5.2 nadal osiągają wyższe wyniki przy ~60% tokenów — znak silniejszej surowej inteligencji.
2️⃣ Ekstrakcja informacji:
Wysoka dokładność, ale nieefektywna. Seed-1.8 ma tendencję do powtarzania i adnotowania pełnego tekstu źródłowego podczas CoT. Proste zadanie ekstrakcji 10K może kosztować 2× tokeny, a dokładność gwałtownie spada przy niższych budżetach rozumowania. Bez włączonego rozumowania, ekstrakcja jest prawie nieużyteczna. (Gemini 3 Pro radzi sobie z tym samym zadaniem w ~4K tokenów.)
3️⃣ Kodowanie:
Historycznie słaby punkt, ale poprawia się. Seed-1.8 dziedziczy zyski z ostatniego modelu kodu i jest użyteczny do kodowania "vibe" 0→1. Nadal daleko mu do modeli inżynieryjnych z najwyższej półki — szczególnie w myśleniu na poziomie systemowym.
Gdzie nadal ma braki ⚠️
1️⃣ Koherencja wieloobrotowa:
Lepsza niż Seed-1.6, teraz "praktycznie użyteczna", ale nadal ma trudności z konsekwentnym śledzeniem celów w długich rozmowach. Po ~10+ obrotach, rozumowanie dryfuje.
2️⃣ Inteligencja przestrzenna:
Ograniczone szkolenie pokazuje. Wydajność w rozumowaniu przestrzennym 2D/3D ledwo poprawia się w porównaniu do 1.6.
🧠 Ostateczna ocena
Zjednoczona strategia multimodalna Gemini już stworzyła silną zaporę. Większość chińskich modeli nadal tkwi w rywalizacji skoncentrowanej na tekście. Wczesna decyzja ByteDance o dążeniu do zjednoczonej multimodalności była słuszna — ale historyczny dług jest ciężki....

Najlepsze
Ranking
Ulubione
