美團推出 OneThinker,一個全方位的視覺推理模型 這個通用的 MLLM 統一了圖像和視頻理解,涵蓋了 10 種不同的任務,如問答、定位、跟踪和分割。它使用 EMA-GRPO 進行多任務強化學習,實現了強大的性能。