Meituan esittelee OneThinkerin, kaiken yhdessä visuaalisen päättelymallin Tämä yleiskäyttöinen MLLM yhdistää kuvan ja videon ymmärryksen kymmenen erilaisen tehtävän kautta, kuten kysymys-vastaus, maadoitus, seuranta ja segmentointi. Se saavuttaa vahvan suorituskyvyn käyttämällä EMA-GRPO:ta monitehtäväiseen RL:ään.