Todo modelo de fundação que alguma vez usou tem o mesmo erro. Acabou de ser corrigido. Desde 2015, todas as redes profundas foram construídas da mesma forma: cada camada faz algum cálculo, adiciona o seu resultado a um total acumulado e passa-o para a frente. Simples. Mas há um problema, na camada 100, o sinal de qualquer camada única está enterrado sob a soma de tudo o resto. Cada nova camada importa cada vez menos. Ninguém corrigiu isso porque funcionava bem o suficiente. A Moonshot AI acabou de mudar isso. O seu novo método, Attention Residuals, permite que cada camada olhe para todas as camadas anteriores e escolha quais realmente importam neste momento. Em vez de um total acumulado cego, você obtém uma recuperação seletiva. A analogia: imagine escrever um ensaio onde cada rascunho é automaticamente mesclado em um único documento. No rascunho 50, suas edições mais recentes são invisíveis. O AttnRes permite que você mantenha cada rascunho separado e puxe de quais você precisar. O que isso corrige: 1. Camadas mais profundas não ficam mais afogadas 2. O treinamento torna-se mais estável em toda a rede 3. O modelo utiliza a sua própria profundidade de forma mais eficiente Para torná-lo prático em escala, eles agrupam camadas em blocos e atendem a resumos de blocos em vez de cada camada individual. Sobrecarga na inferência: menos de 2%. O resultado: 25% menos computação para alcançar o mesmo desempenho. Testado em um modelo de 48B parâmetros. Mantém-se em todos os tamanhos....