Abbiamo bisogno di un momento di deepseek per i VLM. Simile a come GRPO ha reso RL normale e potente, abbiamo bisogno della stessa cosa per unificare le modalità. Sì, Qwen-VLs sono molto buoni, ma sembra che stiamo solo barcollando. Innovazioni di micro-design. Solo @vikhyatk ha un'idea, probabilmente.