Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
İlerleme çok açık! Qwen3-Max Resmi Versiyonu vs Önizleme Versiyon Testi!
Qwen3-Max-ThinkingPreview'un çıkışından beri 3 ay geçti ve resmi sürüm nihayet geldi! Bu artış ne kadar büyük? Test sonuçlarını doğrudan size vereceğim!
Programlama yetenek testi: Havai fişek zinciri patlama testi epik bir gelişme, önceki önizleme versiyonu hiç zincirlenemiyordu, artık sadece zincirlenemiyor, etkisi de oldukça iyi; Fil diş macununun konik şişe testinin modellemesi önemli ölçüde gelişti ve hatta sıvı iniş animasyonu bile var, ancak parçacık animasyonunda hâlâ bazı sorunlar var. Turbillon hareketi tamamlanmamışken, sorunsuz bir şekilde modellenmişti; Python bardağının su dökmesinin parçacık elastikiyeti ve çarpışma tespiti sabitlenmiştir.
Bu sefer estetik bir test eklendi: p5.js modern sanat eserlerini restore etmek için metin açıklamalarının kullanılması, etki iyi, ancak mekânsal anlama yeteneği hâlâ gecikmiş ve küçük pencerenin yatay çizgileri hizalanmış.
Ajan yetenek testi: 60K bağlamında mükemmel performans, SOTA seviyesinde 500 puana ulaşacağı tahmin edilir, ancak 60K'dan sonra performans keskin şekilde düşer ve görev döngüsünü veya araçları unutma sorunları yaşanır.
Geri çağırma kapasitesi yaklaşık %70, ancak garip bir olgu var - bağlam ne kadar kısa, geri çağırma o kadar kötü, sorunun ne olduğu net değil, yetkililere bildirdim.
Özet: Resmi versiyon, önizleme versiyonuna kıyasla çıplak gözle görülebiliyor, programlama ve estetik gelişti, ancak mekânsal anlayış, ajan yeteneği ve uzun bağlam hatırlaması hâlâ cilalanmalıdır. Ayrıca, bu test normal düşünme versiyonu ve süper yüksek puana sahip TTS modu henüz çevrimiçi değil! Bir el sallamayı dört gözle bekliyorum!
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
En İyiler
Sıralama
Takip Listesi
