美団はOneThinkerを導入しました。これはオールインワンの視覚推論モデルです このジェネラリストMLLMは、Q&A、グラウンディング、トラッキング、セグメンテーションなど10の多様なタスクで画像と映像の理解を統合します。EMA-GRPOを用いたマルチタスク強化学習(RL)で高い性能を発揮します。