上海人工智慧實驗室推出VPPO用於多模態強化學習 這種新方法突出了「令牌感知」,使得LVLM能夠更好地推理。它在8個基準上達到了最先進的結果,具有更高的穩定性和更快的收斂速度。