Meituan představuje OneThinker, komplexní model vizuálního uvažování Tento obecný MLLM sjednocuje porozumění obrazu a videu napříč 10 různorodými úkoly, jako jsou otázky a odpovědi, uzemnění, sledování a segmentace. Dosahuje vysokého výkonu díky EMA-GRPO pro multitaskové RL.