Shanghai AI Lab meluncurkan VPPO untuk RL multimoda Metode baru ini menyoroti "persepsi token" untuk membuat LVLM bernalar lebih baik. Ini mencapai hasil yang canggih, dengan stabilitas superior & konvergensi yang lebih cepat pada 8 tolok ukur.