Necesitamos un momento de búsqueda profunda para los VLM. De forma similar a cómo GRPO hizo que RL fuera normal y potente, necesitamos lo mismo para unificar modalidades Sí, los Qwen-VL son muy buenos, pero parece que estamos torpecendo. Innovaciones en microdiseño. Solo @vikhyatk tiene ni idea, probablemente