🔥 ByteDance ha appena rilasciato Doubao-Seed-1.8 (modello Agent) — ecco una valutazione approfondita del contributore di Zhihu toyama nao 👀 🔮 TL;DR: Un'apertura agli occhi in mezzo al caos. Nel corso del 2025, i modelli 1.5 e 1.6 del team Seed sono rimasti saldamente nella fascia alta della Cina e nella seconda fascia globale. Dalla versione 1.5, Seed ha raddoppiato l'impegno nella modellazione multimodale unificata, una scommessa relativamente rara tra i modelli domestici. Detto ciò, Seed-1.6 è stato pesantemente criticato: il RL su larga scala ha aumentato i punteggi di riferimento, ma la generalizzazione nel mondo reale è rimasta indietro rispetto a Qwen3 ed era lontana dai leader globali. Mentre GLM e MiniMax si sono concentrati sulle applicazioni Agent, le deboli capacità agenti di Doubao lo hanno lasciato in difficoltà. Tuttavia, il ritorno di Seed-1.8 nella prima fascia non è stata una sorpresa — la sorpresa è l'efficienza (Fig 1)‼️ La versione media raggiunge la stessa intelligenza di Seed-1.6 utilizzando 5K token invece di 15K, a un prezzo d'ingresso di ¥2, rendendola estremamente conveniente — un percorso che ricorda DeepSeek. La fascia alta scala il ragionamento con budget più ampi e si avvicina notevolmente ai migliori modelli statunitensi. Con una forte comprensione visiva e multimodale, oltre alla generazione di immagini/video solo a metà passo indietro — è giusto chiamare Seed un "mini-Gemini." Dove migliora 🚀 1️⃣ Ragionamento a lungo termine: Seed-1.8 mantiene la concentrazione su CoT molto più lunghi, convalidando attentamente i rami per raggiungere soluzioni corrette. La sua forza deriva più da un'attenzione sostenuta e da una ricerca esaustiva che da un'astrazione profonda simile a quella umana. Gemini 3 Pro e GPT-5.2 ottengono ancora punteggi più alti con ~60% dei token — un segno di intelligenza grezza più forte. 2️⃣ Estrazione di informazioni: Alta precisione, ma inefficiente. Seed-1.8 tende a ripetere e annotare l'intero testo sorgente durante il CoT. Un semplice compito di estrazione di 10K può costare 2× token, e la precisione diminuisce drasticamente con budget di ragionamento più bassi. Senza ragionamento abilitato, l'estrazione è quasi inutilizzabile. (Gemini 3 Pro gestisce lo stesso compito in ~4K token.) 3️⃣ Codifica: Storicamente un punto debole, ma in miglioramento. Seed-1.8 eredita i guadagni dal recente modello di Codice ed è utilizzabile per la codifica "vibe" da 0→1. Ancora lontano dai modelli di ingegneria di fascia alta — specialmente nel pensiero a livello di sistema. Dove è ancora carente ⚠️ 1️⃣ Coerenza multi-turno: Migliore di Seed-1.6, ora "fondamentalmente utilizzabile", ma fatica ancora a tenere traccia degli obiettivi in modo coerente durante lunghe conversazioni. Dopo ~10+ turni, il ragionamento si allontana. 2️⃣ Intelligenza spaziale: La formazione limitata si fa sentire. Le prestazioni nel ragionamento spaziale 2D/3D migliorano a malapena rispetto a 1.6. 🧠 Considerazioni finali La strategia multimodale unificata di Gemini ha già formato un forte vantaggio competitivo. La maggior parte dei modelli cinesi è ancora bloccata in una competizione centrata sul testo. La decisione precoce di ByteDance di perseguire la multimodalità unificata è stata giusta — ma il debito storico pesa molto....