El benchmark Kimi K2.5 pero realizado por científicos de datos de OpenAI