eles construíram o GLM-5 sem depender de grandes clusters da NVIDIA, mas principalmente em hardware doméstico chinês, que é menos maduro como ecossistema e, curiosamente, eles jogaram muito bem aqui com otimizações sobre quantização, núcleos, agendamento assíncrono, paralelismo, etc.