Deutliche Verbesserung! Qwen3-Max offizielle Version vs Preview-Version im Test! Es sind bereits 3 Monate seit der Veröffentlichung der Qwen3-Max-ThinkingPreview-Version vergangen, und die offizielle Version ist endlich da! Wie groß ist die Verbesserung? Hier sind die Testergebnisse! Programmierungsfähigkeits-Test: Epische Verbesserung im Feuerwerkskettenexplosionstest, die vorherige Preview-Version konnte keine Kettenreaktion auslösen, jetzt kann sie nicht nur Kettenreaktionen auslösen, sondern die Ergebnisse sind auch ziemlich gut; beim Elefanten-Zahnpasta-Test ist die Modellierung des konischen Behälters deutlich verbessert, es gibt sogar eine Flüssigkeitsabwärtsanimation, aber die Partikelanimation hat noch einige Probleme; das Tourbillon-Uhrwerk hat von "nicht abschließend" zu "erfolgreich modelliert" gewechselt; die Partikelelastizität und Kollisionserkennung beim Python-Becher-Wasserlassen wurden behoben. Zusätzlich wurde ein Ästhetik-Test hinzugefügt: Mit Textbeschreibungen sollte es ein modernes Kunstwerk in p5.js nachbilden, das Ergebnis ist in Ordnung, aber die räumliche Verständnisfähigkeit ist immer noch ein Schwachpunkt, die horizontale Linie im kleinen Fenster ist verschoben. Agentenfähigkeits-Test: Hervorragende Leistung innerhalb von 60K Kontext, geschätzt, dass es 500 Punkte SOTA-Niveau erreichen kann, aber über 60K sinkt die Leistung drastisch, es treten Probleme mit Aufgabenzyklen oder dem Vergessen von Werkzeugen auf. Die Rückruffähigkeit liegt bei fast 70%, aber es gibt ein seltsames Phänomen – je kürzer der Kontext, desto schlechter der Rückruf, derzeit ist unklar, was das Problem ist, ich habe es bereits dem offiziellen Team gemeldet. Zusammenfassung: Die offizielle Version hat sich im Vergleich zur Preview-Version sichtbar verbessert, sowohl in der Programmierung als auch in der Ästhetik, aber das räumliche Verständnis, die Agentenfähigkeiten und der Rückruf bei langen Kontexten müssen noch verfeinert werden. Außerdem wurde in diesem Test die normale Thinking-Version getestet, und der hoch bewertete TTS-Modus ist derzeit noch nicht online! Ich freue mich darauf!