Microsoft heeft zojuist X-Reasoner uitgebracht op Hugging Face Een vision-language model dat *alleen op tekst* is getraind en beter presteert dan multimodale SOTA op redeneer benchmarks