上海人工智能实验室推出VPPO用于多模态强化学习 这种新方法突出了“令牌感知”,使得大型视觉语言模型(LVLMs)能够更好地推理。它在8个基准测试中取得了最先进的结果,具有更好的稳定性和更快的收敛速度。