🔥 ByteDanceは最近Doubao-Seed-1.8(エージェントモデル)をリリースしました。こちらはZhihu寄稿者の豊山直👀による詳細な評価です 🔮 要約:DR:混沌の中で目を見張る瞬間。 2025年を通じて、Seedチームの1.5および1.6モデルは中国のトップクラス、世界では2位にしっかりと位置を保ちました。1.5以降、Seedは国内モデルでは比較的珍しい統一マルチモーダルモデリングに注力しています。 とはいえ、Seed-1.6は大きな批判を受けました。大規模な強化学習はベンチマークスコアを向上させましたが、実際の一般化はQwen3に遅れ、世界的なリーダーには程遠いものでした。GLMとMiniMaxがエージェントのアプリケーションに注力する中、豆宝のエージェント能力の弱さが苦戦を招きました。 しかし、Seed-1.8が1位に復帰したのは驚きではありませんでした。驚きは効率性です(図1)! !️ 中型バージョンは、1万5千トークンではなく5千トークンでSeed-1.6と同じ知能を達成し、エントリー価格2円で非常にコスト効率が良いです。これはDeepSeekを彷彿とさせる道筋です。 ハイティアモデルは予算が大きく、アメリカのトップモデルにかなり近いスケールです。強いビジョンとマルチモーダル理解、さらに画像や映像生成も半歩遅れのレベル――Seedは「ミニジェミニ」と呼ぶのが妥当です。 改善点 🚀 1️��� ロングチェーン推論: Seed-1.8はより長いCoTにまたがって焦点を保ち、正しい解に到達するために枝を慎重に検証します。 その強みは深い人間的抽象よりも、持続的な注意と徹底的な探索から生まれている。Gemini 3 ProとGPT-5.2は依然としてトークンの約60%でより高いスコアを達成しており、これはより強い生の知能の証です。 2️^ 情報抽出: 高精度ですが、効率は低いです。Seed-1.8はCoT中にソーステキストの再定注や注釈を行う傾向があります。単純な10,000トークンの抽出タスクは2×トークンを消費し、低予算では精度が急激に低下します。推論が有効でなければ、抽出はほとんど使い物にならない。(Gemini 3 Proは同じタスクを~4Kトークンで処理します。) 3️そしてコーディング: 歴史的には弱点でしたが、改善しつつあります。Seed-1.8は最近のコードモデルから得られた恩恵を受け継ぎ、0→1の「バイブコーディング」に利用できます。特にシステムレベルの思考において、トップクラスのエンジニアリングモデルにははまだ程遠いです。 まだまだ足りない⚠️部分 1️^ マルチターンコヒーレンス: Seed-1.6よりは「ほぼ使える」状態ですが、長い会話の中で目標を一貫して追跡するのは依然として苦労しています。~10+ターン後、推論はドリフトします。 2️^ 空間知能: 限られたトレーニングショー。2D/3D空間推論のパフォーマンスは1.6と比べてほとんど改善しません。 🧠 最終テイク ジェミニの統一マルチモーダル戦略はすでに強力な堀を形成しています。ほとんどの中国モデルは依然としてテキスト中心の競争に縛られています。バイトダンスが統一マルチモーダリティを追求するという初期の決定は正しかったが、歴史的な負債は重くのしかかっている。...