Нам потрібен момент глибокого пошуку для VLM. Подібно до того, як GRPO зробив RL нормальним і потужним, нам потрібно те саме для об'єднання модалітів Так, Qwen-VL дуже хороші, але здається, що ми просто незграбні. Інновації в мікродизайні. Ймовірно, лише @vikhyatk має уявлення