Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O DeepSeek acabou de corrigir um dos problemas mais antigos da IA.
(usando um algoritmo de 60 anos)
Aqui está a história:
Quando o deep learning decolou, os pesquisadores bateram em um muro. Você não pode simplesmente empilhar camadas sem parar. Os sinais ou explodem ou desaparecem. Treinar redes profundas era quase impossível.
A ResNets resolveu isso em 2016 com conexões residuais:
saída = entrada + o que a camada aprendeu
Esse "+" cria uma via direta de informação. É por isso que agora podemos treinar redes com centenas de camadas.
Recentemente, pesquisadores perguntaram: e se tivéssemos múltiplas rodovias em vez de uma?
As Hyper-Connections (HC) expandiram essa faixa única para 4 faixas paralelas com matrizes aprendíveis que misturam informações entre fluxos.
Os ganhos de desempenho foram reais. Mas havia um problema:
Essas matrizes de mistura se acumulam em camadas. Uma pequena amplificação de 5% por camada se torna 18x após 60 camadas. O artigo mediu a amplificação chegando a 3000x. O treinamento desmorona.
As soluções de sempre? Clipping de gradiente. Inicialização cuidadosa. Espero que as coisas dêem certo.
Esses são golpes. E hacks não escalam.
A DeepSeek voltou aos princípios fundamentais. Qual restrição matemática garantiria estabilidade?
A resposta estava em um artigo de 1967: o algoritmo Sinkhorn-Knopp.
Isso força matrizes de mistura a serem "duplamente estocásticas", onde linhas e colunas somam 1.
Os resultados:
- 3000x de instabilidade reduzida para 1,6x
- Estabilidade garantida pela matemática, não pela sorte
- Apenas 6,7% de custos adicionais de treinamento
Sem truques. Só matemática.
Compartilhei o link do artigo no próximo tweet.

papel:
312
Melhores
Classificação
Favoritos
