Por qué las redes neuronales aprenden en el borde del caos Cuando entrenas una red neuronal, las actualizaciones de parámetros no están distribuidas normalmente. Tienen colas pesadas: saltos grandes y raros punctúan muchos ajustes pequeños. Este patrón aparece en MLPs, CNNs y Transformers, a través de MNIST y CIFAR-10, en el aprendizaje rápido inicial y la convergencia tardía. Es sospechosamente universal. Xin-Ya Zhang y Chao Tang argumentan que esto no es una peculiaridad del descenso de gradiente estocástico o del ruido de mini-lotes. Es una firma de la criticidad autoorganizada, que surge de un compromiso fundamental: el principio de máxima entropía empuja a la red a explorar libremente, mientras que una restricción de información mutua obliga a que las actualizaciones permanezcan relevantes para la tarea. Equilibra estas dos fuerzas, y obtienes estadísticas de ley de potencias: el mismo comportamiento de escalado que se observa en terremotos, avalanchas neuronales y mercados financieros. La evidencia es convincente. El exponente de la ley de potencias se mantiene notablemente estable a lo largo del entrenamiento, incluso cuando la pérdida disminuye en órdenes de magnitud. El paisaje de pérdida en sí muestra una estructura multiescala: suavidad exponencial bajo pequeñas perturbaciones (cuencas localmente planas), transicionando a rugosidad de ley de potencias a escalas más grandes. Incluso el momento de las grandes actualizaciones sigue estadísticas de colas pesadas: los grandes eventos de aprendizaje se agrupan en lugar de ocurrir aleatoriamente, con exponentes alrededor de 2.5–2.7. Lo que hace que esto sea conceptualmente satisfactorio es la derivación teórica desde primeros principios. Comenzando desde la maximización de la entropía bajo una restricción de información, y utilizando una formulación de integral de camino de la divergencia KL a través del espacio de parámetros, los autores recuperan exactamente el comportamiento de escalado observado. Sin ajuste fino, sin suposiciones ad hoc. Las implicaciones son profundas: el aprendizaje de redes neuronales no es solo optimización; es un proceso físico fuera de equilibrio gobernado por los mismos principios estadísticos que dan forma a sistemas complejos en toda la naturaleza. Comprender esto podría guiar el diseño de algoritmos de aprendizaje más eficientes y explicar por qué el SGD generaliza mejor que los métodos adaptativos que suprimen grandes actualizaciones exploratorias. Artículo: