Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wyraźna poprawa! Qwen3-Max wersja oficjalna vs wersja Preview w testach!
Minęły już 3 miesiące od wydania wersji Qwen3-Max-ThinkingPreview, a wersja oficjalna w końcu nadeszła! Jak duża jest ta poprawa? Oto wyniki testów!
Test umiejętności programowania: Test łańcuchowego wybuchu petard wykazał epicką poprawę, wcześniej wersja Preview nie mogła w ogóle łańcuchować, teraz nie tylko potrafi łańcuchować, ale efekty są całkiem niezłe; Test modelowania butelki stożkowej z pastą do zębów wykazał wyraźną poprawę, nawet pojawiła się animacja opadania cieczy, chociaż animacja cząsteczek wciąż ma pewne problemy; Mechanizm tourbillon przeszedł od niemożności ukończenia do udanego modelowania; Cząsteczki w teście przelewania wody z kubka Python mają poprawioną elastyczność i detekcję kolizji.
Dodano test estetyki: Opisując słowami, udało się odtworzyć nowoczesne dzieło sztuki p5.js, efekty są w porządku, ale zdolność rozumienia przestrzeni wciąż kuleje, poziome linie w małym oknie są przesunięte.
Test umiejętności agenta: W kontekście do 60K wyniki są doskonałe, szacuje się, że można osiągnąć 500 punktów na poziomie SOTA, ale po przekroczeniu 60K wydajność gwałtownie spada, pojawiają się problemy z cyklem zadań lub zapominaniem narzędzi.
Zdolność przypomnienia wynosi blisko 70%, ale wystąpił dziwny fenomen — im krótszy kontekst, tym gorsze przypomnienie, obecnie nie wiadomo, co jest przyczyną, już zgłosiłem to do oficjalnych źródeł.
Podsumowanie: Wersja oficjalna jest wyraźnie lepsza od wersji Preview, zarówno w programowaniu, jak i estetyce, ale zrozumienie przestrzeni, umiejętności agenta i przypomnienie w długim kontekście wciąż wymagają dopracowania. Dodatkowo, testowana była normalna wersja thinking, a ten super wysoki wynik w trybie TTS jeszcze nie został uruchomiony! Czekam na to!
Najlepsze
Ranking
Ulubione
