Shanghai AI Lab presenta VPPO para RL multimodal Este nuevo método destaca la "percepción simbólica" para hacer que los LVLM razonen mejor. Logra resultados de última generación, con una estabilidad superior y una convergencia más rápida en 8 puntos de referencia.