Forbedringen er åpenbar! Qwen3-Max Offisiell versjon vs Forhåndsvisningsversjon Test! Det har gått 3 måneder siden lanseringen av Qwen3-Max-ThinkingPreview, og den offisielle versjonen er endelig her! Hvor stor er denne økningen? Gir deg testresultatene direkte! Programmeringsferdighetstest: Fyrverkerikjede-eksplosjonstest episk forbedring, forrige forhåndsvisningsversjon kunne ikke lenkes i det hele tatt, nå kan den ikke bare lenkes, effekten er ganske god; Modelleringen av den koniske flasketesten av elefanttannkrem har blitt betydelig bedre, og det finnes til og med en flytende nedstigningsanimasjon, men det er fortsatt noen problemer med partikkelanimasjonen. Tourbillon-bevegelsen gikk fra å være uferdig til å bli modellert smidig; Partikkelelastisiteten og kollisjonsdeteksjonen til Python-koppen som heller vann er blitt fikset. Denne gangen er det lagt til en estetisk test: bruk av tekstbeskrivelser for å gjenopprette p5.js moderne kunstverk, effekten er grei, men den romlige forståelsen er fortsatt forsinket, og de horisontale linjene i det lille vinduet er feiljusterte. Agentens ferdighetstest: Utmerket ytelse innenfor 60K-konteksten, estimert til å nå 500 poeng SOTA-nivå, men etter 60K faller ytelsen kraftig, og det vil oppstå problemer med oppgavelooping eller glemselverktøy. Tilbakekallingskapasiteten er nær 70 %, men det er et merkelig fenomen – jo kortere konteksten er, desto verre er tilbakekallingen, det er uklart hva problemet er, jeg har rapportert det til tjenestemennene. Sammendrag: Den offisielle versjonen er synlig for det blotte øye sammenlignet med forhåndsvisningsversjonen, og programmeringen og estetikken er forbedret, men romforståelsen, agentens evne og lang kontekstgjenkalling må fortsatt finpusses. I tillegg er denne testen en normal tenkning-versjon, og TTS-modusen med superhøy poengsum er ennå ikke online! Gleder meg til en bølge! #Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问