Shanghai AI Lab avduker VPPO for multimodal RL Denne nye metoden setter søkelyset på "token-persepsjon" for å få LVLM-er til å resonnere bedre. Den oppnår toppmoderne resultater, med overlegen stabilitet og raskere konvergens på 8 benchmarks.