O benchmark do Kimi K2.5 mas feito por cientistas de dados da OpenAI