De Kimi K2.5 benchmark maar gedaan door datawetenschappers van OpenAI