熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
提升明顯! Qwen3-Max 正式版 vs Preview版 實測!
距離 Qwen3-Max-ThinkingPreview 版發佈已經過去3個月了, 正式版終於來了! 這次提升有多大? 給大家直接上測試結果!
編程能力測試: 鞭炮連鎖爆炸測試史詩級提升, 之前Preview版完全無法連鎖, 現在不僅能連鎖, 效果還相當不錯; 大象牙膏測試錐形瓶建模改善明顯, 甚至有液體下降動畫了, 不過粒子動畫還是有些問題; 陀飛輪機芯從無法完成到順利建模; Python杯子倒水的粒子彈性和碰撞檢測都修好了.
這次追加了美學測試: 用文字描述讓它還原p5.js現代藝術作品, 效果還可以, 但空間理解能力還是拖後腿, 小窗口的橫線錯位了.
Agent能力測試: 60K上下文以內表現優秀, 預估能刷到500分SOTA水平, 但超過60K後性能急劇下降, 會出現任務循環或遺忘工具的問題.
召回能力接近70%, 但出現了奇怪現象——上下文越短召回反而越差, 目前還不清楚是什麼問題, 我已經反饋給官方了.
總結: 正式版比Preview版提升肉眼可見, 編程和美學都有進步, 但空間理解、Agent能力和長上下文召回還需打磨. 另外, 本次測試的是正常的thinking版本, 而那個分數超高的TTS模式目前還沒上線呢! 期待一波!
#Qwen3Max #Qwen3MaxThinking #KCORES大模型競技場 #AI編程 #大模型測評 #阿里千問
熱門
排行
收藏
