Wir brauchen einen Deepseek-Moment für VLMs. Ähnlich wie GRPO RL normal und mächtig gemacht hat, brauchen wir dasselbe, um Modalitäten zu vereinen. Ja, Qwen-VLs sind sehr gut, aber es fühlt sich an, als würden wir nur herumstolpern. Mikro-Design-Innovationen. Nur @vikhyatk hat einen Plan, wahrscheinlich.