O DeepSeek acabou de corrigir um dos problemas mais antigos da IA. (usando um algoritmo de 60 anos) Aqui está a história: Quando o deep learning decolou, os pesquisadores bateram em um muro. Você não pode simplesmente empilhar camadas sem parar. Os sinais ou explodem ou desaparecem. Treinar redes profundas era quase impossível. A ResNets resolveu isso em 2016 com conexões residuais: saída = entrada + o que a camada aprendeu Esse "+" cria uma via direta de informação. É por isso que agora podemos treinar redes com centenas de camadas. Recentemente, pesquisadores perguntaram: e se tivéssemos múltiplas rodovias em vez de uma? As Hyper-Connections (HC) expandiram essa faixa única para 4 faixas paralelas com matrizes aprendíveis que misturam informações entre fluxos. Os ganhos de desempenho foram reais. Mas havia um problema: Essas matrizes de mistura se acumulam em camadas. Uma pequena amplificação de 5% por camada se torna 18x após 60 camadas. O artigo mediu a amplificação chegando a 3000x. O treinamento desmorona. As soluções de sempre? Clipping de gradiente. Inicialização cuidadosa. Espero que as coisas dêem certo. Esses são golpes. E hacks não escalam. A DeepSeek voltou aos princípios fundamentais. Qual restrição matemática garantiria estabilidade? A resposta estava em um artigo de 1967: o algoritmo Sinkhorn-Knopp. Isso força matrizes de mistura a serem "duplamente estocásticas", onde linhas e colunas somam 1. Os resultados: - 3000x de instabilidade reduzida para 1,6x - Estabilidade garantida pela matemática, não pela sorte - Apenas 6,7% de custos adicionais de treinamento Sem truques. Só matemática. Compartilhei o link do artigo no próximo tweet.
papel:
312