Meituan presenta OneThinker, un modello di ragionamento visivo tutto-in-uno Questo MLLM generalista unifica la comprensione di immagini e video attraverso 10 compiti diversi come domande e risposte, ancoraggio, tracciamento e segmentazione. Raggiunge prestazioni elevate utilizzando EMA-GRPO per il RL multi-task.