Por qué las redes neuronales aprenden al borde del caos Cuando entrenas una red neuronal, las actualizaciones de parámetros normalmente no se distribuyen. Tienen cola pesada—los saltos grandes y raros marcan muchos pequeños ajustes. Este patrón aparece en MLP, CNN y Transformers, en MNIST y CIFAR-10, en el aprendizaje rápido temprano y la convergencia tardía. Es sospechosamente universal. Xin-Ya Zhang y Chao Tang argumentan que esto no es una rareza del descenso estocástico del gradiente ni de ruido en mini-lotes. Es una característica de la criticidad autoorganizada, que surge de un compromiso fundamental: el principio de máxima entropía empuja a la red a explorar libremente, mientras que una restricción de información mutua obliga a las actualizaciones a seguir siendo relevantes para la tarea. Equilibra estas dos fuerzas y obtienes estadísticas de leyes de potencia—el mismo comportamiento de escalado que se observa en terremotos, avalanchas neuronales y mercados financieros. Las pruebas son contundentes. El exponente de la ley de potencia se mantiene notablemente estable durante todo el entrenamiento, incluso cuando la pérdida cae en órdenes de magnitud. El propio paisaje de pérdidas muestra una estructura multiescala: suavidad exponencial bajo pequeñas perturbaciones (cuencas localmente planas), transición a robustez de ley de potencia a escalas mayores. Incluso el momento de las grandes actualizaciones sigue estadísticas de gran cola: los grandes eventos de aprendizaje se agrupan en lugar de ocurrir aleatoriamente, con exponentes alrededor de 2,5–2,7. Lo que hace que esto sea conceptualmente satisfactorio es la derivación teórica a partir de los primeros principios. Partiendo de la maximización de entropía bajo una restricción de información, y usando una formulación integral de camino de la divergencia KL a través del espacio de parámetros, los autores recuperan exactamente el comportamiento de escalado observado. Sin ajustes finos, sin suposiciones ad hoc. Las implicaciones son profundas: el aprendizaje de redes neuronales no es solo optimización: es un proceso físico fuera de equilibrio gobernado por los mismos principios estadísticos que moldean sistemas complejos en toda la naturaleza. Comprender esto podría guiar el diseño de algoritmos de aprendizaje más eficientes y explicar por qué SGD se generaliza mejor que los métodos adaptativos que suprimen grandes actualizaciones exploratorias. Papel: