Meituan introduce OneThinker, un modelo de razonamiento visual todo en uno Este MLLM generalista unifica la comprensión de imagen y vídeo a lo largo de 10 tareas diversas como preguntas y respuestas, grounding, seguimiento y segmentación. Logra un rendimiento sólido utilizando EMA-GRPO para la multitarea de RL.