Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A DeepSeek acabou de resolver um dos problemas mais antigos da IA.
(Usando um algoritmo de 60 anos)
Aqui está a história:
Quando o deep learning decolou, os pesquisadores encontraram um obstáculo. Não se pode simplesmente empilhar camadas sem fim. Os sinais ou explodem ou desaparecem. Treinar redes profundas era quase impossível.
Os ResNets resolveram isso em 2016 com conexões residuais:
saída = entrada + o que a camada aprendeu
Esse "+" cria uma autoestrada direta para a informação. É por isso que agora podemos treinar redes com centenas de camadas.
Recentemente, os pesquisadores perguntaram: e se tivéssemos várias autoestradas em vez de uma?
As Hyper-Connections (HC) expandiram aquela única faixa em 4 faixas paralelas com matrizes aprendíveis que misturam informações entre os fluxos.
Os ganhos de desempenho foram reais. Mas havia um problema:
Essas matrizes de mistura se acumulam através das camadas. Uma pequena amplificação de 5% por camada se torna 18x após 60 camadas. O artigo mediu uma amplificação chegando a 3000x. O treinamento colapsa.
As soluções habituais? Recorte de gradiente. Inicialização cuidadosa. Esperar que as coisas funcionem.
Essas são gambiarras. E gambiarras não escalam.
A DeepSeek voltou aos princípios básicos. Que restrição matemática garantiria estabilidade?
A resposta estava em um artigo de 1967: o algoritmo de Sinkhorn-Knopp.
Ele força as matrizes de mistura a serem "duplamente estocásticas", onde as linhas e colunas somam 1.
Os resultados:
- Instabilidade de 3000x reduzida para 1.6x
- Estabilidade garantida pela matemática, não pela sorte
- Apenas 6.7% de sobrecarga adicional de treinamento
Sem gambiarras. Apenas matemática.
Compartilhei o link para o artigo no próximo tweet.

papel:
307
Top
Classificação
Favoritos
