Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Forbedringen er åpenbar! Qwen3-Max Offisiell versjon vs Forhåndsvisningsversjon Test!
Det har gått 3 måneder siden lanseringen av Qwen3-Max-ThinkingPreview, og den offisielle versjonen er endelig her! Hvor stor er denne økningen? Gir deg testresultatene direkte!
Programmeringsferdighetstest: Fyrverkerikjede-eksplosjonstest episk forbedring, forrige forhåndsvisningsversjon kunne ikke lenkes i det hele tatt, nå kan den ikke bare lenkes, effekten er ganske god; Modelleringen av den koniske flasketesten av elefanttannkrem har blitt betydelig bedre, og det finnes til og med en flytende nedstigningsanimasjon, men det er fortsatt noen problemer med partikkelanimasjonen. Tourbillon-bevegelsen gikk fra å være uferdig til å bli modellert smidig; Partikkelelastisiteten og kollisjonsdeteksjonen til Python-koppen som heller vann er blitt fikset.
Denne gangen er det lagt til en estetisk test: bruk av tekstbeskrivelser for å gjenopprette p5.js moderne kunstverk, effekten er grei, men den romlige forståelsen er fortsatt forsinket, og de horisontale linjene i det lille vinduet er feiljusterte.
Agentens ferdighetstest: Utmerket ytelse innenfor 60K-konteksten, estimert til å nå 500 poeng SOTA-nivå, men etter 60K faller ytelsen kraftig, og det vil oppstå problemer med oppgavelooping eller glemselverktøy.
Tilbakekallingskapasiteten er nær 70 %, men det er et merkelig fenomen – jo kortere konteksten er, desto verre er tilbakekallingen, det er uklart hva problemet er, jeg har rapportert det til tjenestemennene.
Sammendrag: Den offisielle versjonen er synlig for det blotte øye sammenlignet med forhåndsvisningsversjonen, og programmeringen og estetikken er forbedret, men romforståelsen, agentens evne og lang kontekstgjenkalling må fortsatt finpusses. I tillegg er denne testen en normal tenkning-versjon, og TTS-modusen med superhøy poengsum er ennå ikke online! Gleder meg til en bølge!
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
Topp
Rangering
Favoritter
