Le benchmark Kimi K2.5 mais réalisé par des data scientists d'OpenAI