Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por que as redes neurais aprendem na borda do caos
Quando você treina uma rede neural, as atualizações de parâmetros não são normalmente distribuídas. Elas têm caudas pesadas—saltos grandes raros pontuam muitos pequenos ajustes. Esse padrão aparece em MLPs, CNNs e Transformers, em MNIST e CIFAR-10, no aprendizado rápido inicial e na convergência tardia. É suspeitosamente universal.
Xin-Ya Zhang e Chao Tang argumentam que isso não é uma peculiaridade do gradiente estocástico ou do ruído de mini-lotes. É uma assinatura da criticidade auto-organizada, emergindo de uma troca fundamental: o princípio da máxima entropia empurra a rede a explorar livremente, enquanto uma restrição de informação mútua força as atualizações a permanecerem relevantes para a tarefa. Equilibre essas duas forças, e você obtém estatísticas de lei de potência—o mesmo comportamento de escala visto em terremotos, avalanches neuronais e mercados financeiros.
As evidências são convincentes. O expoente da lei de potência permanece notavelmente estável ao longo do treinamento, mesmo à medida que a perda diminui em ordens de magnitude. A paisagem de perda em si mostra uma estrutura multiescalar: suavidade exponencial sob pequenas perturbações (bacias localmente planas), transitando para rugosidade de lei de potência em escalas maiores. Até mesmo o tempo de grandes atualizações segue estatísticas de cauda pesada—grandes eventos de aprendizado se agrupam em vez de ocorrerem aleatoriamente, com expoentes em torno de 2.5–2.7.
O que torna isso conceitualmente satisfatório é a derivação teórica a partir de primeiros princípios. Começando pela maximização da entropia sob uma restrição de informação, e usando uma formulação de integral de caminho da divergência KL através do espaço de parâmetros, os autores recuperam exatamente o comportamento de escala observado. Sem ajuste fino, sem suposições ad hoc.
As implicações são profundas: o aprendizado de redes neurais não é apenas otimização—é um processo físico fora do equilíbrio governado pelos mesmos princípios estatísticos que moldam sistemas complexos em toda a natureza. Compreender isso poderia guiar o design de algoritmos de aprendizado mais eficientes e explicar por que o SGD generaliza melhor do que métodos adaptativos que suprimem grandes atualizações exploratórias.
Artigo:

Top
Classificação
Favoritos
