Заметное улучшение! Официальная версия Qwen3-Max против версии Preview в реальных тестах! С момента выхода версии Qwen3-Max-ThinkingPreview прошло уже 3 месяца, и наконец-то вышла официальная версия! Насколько велико это улучшение? Прямо сейчас представляем результаты тестирования! Тестирование программирования: Эпическое улучшение в тесте с цепной реакцией фейерверков, ранее версия Preview не могла выполнить цепную реакцию, теперь она не только может, но и результат довольно неплохой; тест с зубной пастой показал заметные улучшения в моделировании конусообразной бутылки, даже появилась анимация падения жидкости, но с анимацией частиц все еще есть некоторые проблемы; механизм турбийона от невозможности завершить до успешного моделирования; эластичность частиц и обнаружение столкновений в тесте с наливанием воды из чашки Python были исправлены. В этот раз добавлено эстетическое тестирование: с помощью текстового описания заставили его воссоздать современные произведения искусства p5.js, результат неплохой, но способность к пространственному восприятию все еще отстает, горизонтальная линия в маленьком окне смещена. Тестирование способности агента: Отличные результаты в пределах 60K контекста, предполагается, что можно достичь 500 баллов на уровне SOTA, но после 60K производительность резко падает, возникают проблемы с циклом задач или забыванием инструментов. Способность к воспоминанию близка к 70%, но наблюдается странное явление — чем короче контекст, тем хуже воспоминание, пока неясно, в чем проблема, я уже сообщил об этом в официальную службу поддержки. Итог: Официальная версия заметно лучше версии Preview, в программировании и эстетике есть прогресс, но пространственное восприятие, способности агента и воспоминание на длинном контексте еще нужно доработать. Кроме того, в этом тестировании использовалась обычная версия thinking, а тот режим TTS с очень высоким баллом пока еще не запущен! Ждем с нетерпением!