Por que redes neurais aprendem na beira do caos Quando você treina uma rede neural, as atualizações de parâmetros normalmente não são distribuídas. Eles têm cauda pesada — raros saltos grandes pontuam muitos pequenos ajustes. Esse padrão aparece em MLPs, CNNs e Transformers, em MNIST e CIFAR-10, em aprendizado rápido precoce e convergência tardia. É suspeitosamente universal. Xin-Ya Zhang e Chao Tang argumentam que isso não é uma peculiaridade de descida estocástica de gradiente ou ruído em mini-lote. É uma marca da criticidade auto-organizada, emergindo de um trade-off fundamental: o princípio da entropia máxima impulsiona a rede a explorar livremente, enquanto uma restrição mútua de informação força as atualizações a permanecerem relevantes para a tarefa. Equilibre essas duas forças, e você obtém estatísticas de lei de potência — o mesmo comportamento de escala visto em terremotos, avalanches neuronais e mercados financeiros. As evidências são convincentes. O expoente da lei de potência permanece notavelmente estável durante todo o treinamento, mesmo com a queda de perda em ordens de magnitude. O próprio cenário de perda apresenta estrutura multiescala: suavidade exponencial sob pequenas perturbações (bacias localmente planas), transitando para robustez de lei de potência em escalas maiores. Até mesmo o momento das grandes atualizações segue estatísticas pesadas — grandes eventos de aprendizado se agrupam em vez de ocorrerem aleatoriamente, com expoentes em torno de 2,5–2,7. O que torna isso conceitualmente satisfatório é a derivação teórica a partir dos primeiros princípios. Partindo da maximização da entropia sob uma restrição de informação, e usando uma formulação integral de caminho da divergência KL através do espaço de parâmetros, os autores recuperam exatamente o comportamento de escalonamento observado. Sem ajustes finos, sem suposições ad hoc. As implicações são profundas: o aprendizado de redes neurais não é apenas otimização — é um processo físico fora de equilíbrio governado pelos mesmos princípios estatísticos que moldam sistemas complexos em toda a natureza. Compreender isso pode orientar o desenvolvimento de algoritmos de aprendizagem mais eficientes e explicar por que o SGD se generaliza melhor do que métodos adaptativos que suprimem grandes atualizações exploratórias. Papel: