Îmbunătățirea este evidentă! Versiunea oficială Qwen3-Max vs Testul versiunii de previzualizare! Au trecut 3 luni de la lansarea Qwen3-Max-ThinkingPreview, iar versiunea oficială a sosit în sfârșit! Cât de mare este această creștere? Îți dau rezultatele testelor direct! Testul abilităților de programare: Firecracker chain test de explozie a îmbunătățirii epice, versiunea anterioară de previzualizare nu putea fi deloc lanțată, acum nu doar că poate fi lanțată, dar efectul este destul de bun; Modelarea testului cu sticlă conică a pastei de dinți pentru elefanți s-a îmbunătățit semnificativ, există chiar și o animație de coborâre a lichidului, dar încă există unele probleme cu animația particulelor. Mișcarea turbillonului a trecut de la a fi neterminată la a fi modelată lin; Elasticitatea particulelor și detectarea coliziunilor în cupa Python care turnează apă au fost corectate. De data aceasta, a fost adăugat un test estetic: utilizarea descrierilor text pentru a restaura p5.js opere de artă moderne, efectul este acceptabil, dar capacitatea de înțelegere spațială este încă întârziată, iar liniile orizontale ale micii ferestre sunt nealiniate. Test de abilitate al agentului: Performanță excelentă în context de 60K, estimată la 500 de puncte la nivelul SOTA, dar după 60K, performanța scade brusc și vor apărea probleme cu bucla sarcinilor sau uitarea uneltelor. Capacitatea de rechemare este aproape de 70%, dar există un fenomen ciudat – cu cât contextul este mai scurt, cu atât rechemarea este mai gravă, nu este clar care este problema, am raportat-o oficialilor. Rezumat: Versiunea oficială este vizibilă cu ochiul liber comparativ cu versiunea de previzualizare, iar programarea și estetica s-au îmbunătățit, dar înțelegerea spațială, abilitatea agentului și reamintirea lungă a contextului încă trebuie șlefuite. În plus, acest test este o versiune normală de gândire, iar modul TTS cu un scor foarte mare încă nu este online! Aștept cu nerăbdare un val! #Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问