Microsoft hat gerade X-Reasoner auf Hugging Face veröffentlicht Ein vision-sprachliches Modell, das *nur auf Text* trainiert wurde und die multimodalen SOTA bei den Bewertungsbenchmarks für das logische Denken übertrifft