Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Заметное улучшение! Официальная версия Qwen3-Max против версии Preview в реальных тестах!
С момента выхода версии Qwen3-Max-ThinkingPreview прошло уже 3 месяца, и наконец-то вышла официальная версия! Насколько велико это улучшение? Прямо сейчас представляем результаты тестирования!
Тестирование программирования: Эпическое улучшение в тесте с цепной реакцией фейерверков, ранее версия Preview не могла выполнить цепную реакцию, теперь она не только может, но и результат довольно неплохой; тест с зубной пастой показал заметные улучшения в моделировании конусообразной бутылки, даже появилась анимация падения жидкости, но с анимацией частиц все еще есть некоторые проблемы; механизм турбийона от невозможности завершить до успешного моделирования; эластичность частиц и обнаружение столкновений в тесте с наливанием воды из чашки Python были исправлены.
В этот раз добавлено эстетическое тестирование: с помощью текстового описания заставили его воссоздать современные произведения искусства p5.js, результат неплохой, но способность к пространственному восприятию все еще отстает, горизонтальная линия в маленьком окне смещена.
Тестирование способности агента: Отличные результаты в пределах 60K контекста, предполагается, что можно достичь 500 баллов на уровне SOTA, но после 60K производительность резко падает, возникают проблемы с циклом задач или забыванием инструментов.
Способность к воспоминанию близка к 70%, но наблюдается странное явление — чем короче контекст, тем хуже воспоминание, пока неясно, в чем проблема, я уже сообщил об этом в официальную службу поддержки.
Итог: Официальная версия заметно лучше версии Preview, в программировании и эстетике есть прогресс, но пространственное восприятие, способности агента и воспоминание на длинном контексте еще нужно доработать. Кроме того, в этом тестировании использовалась обычная версия thinking, а тот режим TTS с очень высоким баллом пока еще не запущен! Ждем с нетерпением!
Топ
Рейтинг
Избранное
