DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Por que redes neurais aprendem na beira do caos Quando você treina uma rede neural, as atualizações de parâmetros normalmente não são distribuídas. Eles têm cauda pesada — raros saltos grandes pontuam muitos pequenos ajustes. Esse padrão aparece em MLPs, CNNs e Transformers, em MNIST e CIFAR-10, em aprendizado rápido precoce e convergência tardia. É suspeitosamente universal. Xin-Ya Zhang e Chao Tang argumentam que isso não é uma peculiaridade de descida estocástica de gradiente ou ruído em mini-lote. É uma marca da criticidade auto-organizada, emergindo de um trade-off fundamental: o princípio da entropia máxima impulsiona a rede a explorar livremente, enquanto uma restrição mútua de informação força as atualizações a permanecerem relevantes para a tarefa. Equilibre essas duas forças, e você obtém estatísticas de lei de potência — o mesmo comportamento de escala visto em terremotos, avalanches neuronais e mercados financeiros. As evidências são convincentes. O expoente da lei de potência permanece notavelmente estável durante todo o treinamento, mesmo com a queda de perda em ordens de magnitude. O próprio cenário de perda apresenta estrutura multiescala: suavidade exponencial sob pequenas perturbações (bacias localmente planas), transitando para robustez de lei de potência em escalas maiores. Até mesmo o momento das grandes atualizações segue estatísticas pesadas — grandes eventos de aprendizado se agrupam em vez de ocorrerem aleatoriamente, com expoentes em torno de 2,5–2,7. O que torna isso conceitualmente satisfatório é a derivação teórica a partir dos primeiros princípios. Partindo da maximização da entropia sob uma restrição de informação, e usando uma formulação integral de caminho da divergência KL através do espaço de parâmetros, os autores recuperam exatamente o comportamento de escalonamento observado. Sem ajustes finos, sem suposições ad hoc. As implicações são profundas: o aprendizado de redes neurais não é apenas otimização — é um processo físico fora de equilíbrio governado pelos mesmos princípios estatísticos que moldam sistemas complexos em toda a natureza. Compreender isso pode orientar o desenvolvimento de algoritmos de aprendizagem mais eficientes e explicar por que o SGD se generaliza melhor do que métodos adaptativos que suprimem grandes atualizações exploratórias. Papel:

Melhores

Classificação

Favoritos