Vi behöver ett deepseek-ögonblick för VLM:er. På samma sätt som GRPO gjorde RL normalt och kraftfullt, behöver vi samma för att ena modaliter Ja, Qwen-VL:er är väldigt bra men det känns som att vi bara klantar oss. Mikrodesigninnovationer. Bara @vikhyatk har en aning, troligen