Meituan wprowadza OneThinker, wszechstronny model rozumienia wizualnego Ten ogólny MLLM łączy zrozumienie obrazów i wideo w 10 różnych zadaniach, takich jak pytania i odpowiedzi, lokalizacja, śledzenie i segmentacja. Osiąga silne wyniki, wykorzystując EMA-GRPO do wielozadaniowego RL.