Il Shanghai AI Lab svela VPPO per RL multimodale Questo nuovo metodo mette in evidenza la "percezione dei token" per migliorare il ragionamento degli LVLM. Raggiunge risultati all'avanguardia, con stabilità superiore e convergenza più rapida su 8 benchmark.