Wyraźna poprawa! Qwen3-Max wersja oficjalna vs wersja Preview w testach! Minęły już 3 miesiące od wydania wersji Qwen3-Max-ThinkingPreview, a wersja oficjalna w końcu nadeszła! Jak duża jest ta poprawa? Oto wyniki testów! Test umiejętności programowania: Test łańcuchowego wybuchu petard wykazał epicką poprawę, wcześniej wersja Preview nie mogła w ogóle łańcuchować, teraz nie tylko potrafi łańcuchować, ale efekty są całkiem niezłe; Test modelowania butelki stożkowej z pastą do zębów wykazał wyraźną poprawę, nawet pojawiła się animacja opadania cieczy, chociaż animacja cząsteczek wciąż ma pewne problemy; Mechanizm tourbillon przeszedł od niemożności ukończenia do udanego modelowania; Cząsteczki w teście przelewania wody z kubka Python mają poprawioną elastyczność i detekcję kolizji. Dodano test estetyki: Opisując słowami, udało się odtworzyć nowoczesne dzieło sztuki p5.js, efekty są w porządku, ale zdolność rozumienia przestrzeni wciąż kuleje, poziome linie w małym oknie są przesunięte. Test umiejętności agenta: W kontekście do 60K wyniki są doskonałe, szacuje się, że można osiągnąć 500 punktów na poziomie SOTA, ale po przekroczeniu 60K wydajność gwałtownie spada, pojawiają się problemy z cyklem zadań lub zapominaniem narzędzi. Zdolność przypomnienia wynosi blisko 70%, ale wystąpił dziwny fenomen — im krótszy kontekst, tym gorsze przypomnienie, obecnie nie wiadomo, co jest przyczyną, już zgłosiłem to do oficjalnych źródeł. Podsumowanie: Wersja oficjalna jest wyraźnie lepsza od wersji Preview, zarówno w programowaniu, jak i estetyce, ale zrozumienie przestrzeni, umiejętności agenta i przypomnienie w długim kontekście wciąż wymagają dopracowania. Dodatkowo, testowana była normalna wersja thinking, a ten super wysoki wynik w trybie TTS jeszcze nie został uruchomiony! Czekam na to!