Necesitamos un momento de deepseek para los VLMs. Similar a cómo GRPO hizo que el RL fuera normal y poderoso, necesitamos lo mismo para unificar modalidades. Sí, Qwen-VLs son muy buenos, pero parece que solo estamos tropezando. Innovaciones de micro-diseño. Solo @vikhyatk tiene una pista, probablemente.