¡Presentando el Informe Técnico del GLM-5! Tras el lanzamiento del GLM-5, vamos a desvelar cómo se construyó. Las principales innovaciones incluyen: - Adopción de DSA: Reduce significativamente los costes de entrenamiento e inferencia mientras preserva la fidelidad a largo plazo - Infraestructura RL asíncrona: mejora drásticamente la eficiencia post-entrenamiento al desacoplar la generación del entrenamiento - Algoritmos de RL de agentes: Permiten al modelo aprender de forma más eficaz a partir de interacciones complejas y de largo horizonte Gracias a estas innovaciones, GLM-5 logra el rendimiento SOTA entre modelos de código abierto, con resultados especialmente sólidos en tareas reales de ingeniería de software.