🚨 ÚLTIMA HORA: A DeepSeek acabou de lançar uma melhoria fundamental na arquitetura do Transformer CEO Wenfeng Liang na lista de autores A BALEIA VOLTOU 🐋
O artigo "mHC: Manifold-Constraints Hyper-Connections" propõe uma estrutura para aprimorar as Hyper-Connections em Transformers. Ele utiliza projeções de múltiplas dimensões para restaurar o mapeamento de identidade, abordando instabilidade no treinamento, limites de escalabilidade e sobrecarga de memória. Os principais benefícios incluem melhor desempenho e eficiência em modelos em grande escala, como demonstrado em experimentos.
94