Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🔥 ByteDance Doubao-Seed-1.8 (Ajan modeli) yeni yayınladı — ve işte Zhihu katkıcısı toyama nao'dan 👀 derinlemesine bir değerlendirme
🔮 Özet; DR:Kaosun ortasında bir göz açılıştı.
2025 boyunca, Seed takımının 1.5 ve 1.6 modelleri Çin'in üst seviyesinde ve küresel ikinci seviyede sağlam bir şekilde yer aldı. 1.5'ten bu yana Seed, yerli modeller arasında nispeten nadir bulunan birleşik multimodal modelleme üzerine daha fazla çalışmayı yaptı.
Bununla birlikte, Seed-1.6 ağır şekilde eleştirildi: büyük ölçekli RL kıyaslama puanlarını yükseltti, ancak gerçek dünya genellemesi Qwen3'ün gerisinde kaldı ve küresel liderlerden çok uzaktı. GLM ve MiniMax Ajan uygulamalarına yönelirken, Doubao'nun zayıf ajan yetenekleri onu zor bıraktı.
Ancak, Seed-1.8'in birinci seviyeye dönüşü sürpriz değildi — sürpriz verimlilikte (Şekil 1)! !️
Orta versiyon, 15K yerine 5K token kullanarak Seed-1.6 ile aynı zekaya ulaşıyor ve giriş fiyatı ¥2 ile bu da son derece ekonomik bir performans sağlıyor — bu da DeepSeek'i andıran bir yol.
Yüksek seviye model, daha büyük bütçelerle ölçekleniyor ve ABD'nin en iyi modellerine oldukça yakın. Güçlü vizyon ve çoklu modal anlayış ile ayrıca görüntü/video üretimi sadece yarım adım geride — Seed'i "mini-Gemini" olarak adlandırmak adil olur.
Nerede gelişiyor 🚀
1️⃣ Uzun zincirli akıl yürütme:
Tohum-1.8, çok daha uzun CoT'de odaklanmayı korur, dalları doğru çözümlere ulaşmak için dikkatle doğrular.
Gücü, derin insana özgü soyutlamadan ziyade sürekli dikkat ve kapsamlı arayıştan gelir. Gemini 3 Pro ve GPT-5.2, tokenların %60'ıyla hâlâ daha yüksek puanlar elde ediyor — bu da daha güçlü ham zekanın bir göstergesi.
2️⃣ Bilgi çıkarımı:
Yüksek isabetli, ama verimsiz. Seed-1.8, CoT sırasında tam kaynak metni yeniden ifade etmeye ve açıklama yapma eğilimindedir. Basit bir 10K çıkarma görevi 2× jeton maliyeti olabilir ve daha düşük mantık bütçelerinde doğruluk keskin bir şekilde düşer. Gerekçe çalışması mümkün olmadan, çıkarma neredeyse kullanılamaz hale gelir. (Gemini 3 Pro aynı görevi ~4K tokenlarda yönetiyor.)
3️⃣ Kodlama:
Tarihsel olarak zayıf bir nokta ama gelişiyor. Seed-1.8, son Code modelinden kazançlar alır ve 0→1 "vibe kodlama" için kullanılabilir. Hâlâ üst düzey mühendislik modellerinden uzakta — özellikle sistem düzeyinde düşünmede.
Yine de eksik ⚠️ olduğu yerde
1️⃣ Çok turlu tutarlılık:
Seed-1.6'dan daha iyi, artık "temelde kullanılabilir" ama uzun konuşmalarda hedefleri tutarlı şekilde takip etmekte hâlâ zorlanıyor. ~10+ turdan sonra mantık sapıyor.
2️⃣ Mekansal zeka:
Sınırlı eğitim gösterileri. 2D/3D mekânsal akıl yürütmedeki performans 1.6'ya göre neredeyse hiç gelişme göstermiyor.
🧠 Son bakış
İkizlerin birleşik multimodal stratejisi zaten güçlü bir hendek oluşturdu. Çoğu Çin modeli hâlâ metin odaklı rekabette kilitlenmiş. ByteDance'in birleşik multimodalite'yi takip etme kararı haklıydı — ancak tarihsel borç ağır....

En İyiler
Sıralama
Takip Listesi
